1
Introduction
- Azure : les grands principes du cloud, présentation et intérêts
2
Databricks : vue d'ensemble
- Présentation d'Azure Databricks : les concepts (data lakehouse, ETL, data warehouse)
- Gouvernance des données : concepts du Unity Catalog
- Avantages de Databricks
3
Les espaces de travail
- Les ressources Azure Databricks
- La création d'un espace de travail
- La connexion de l'espace de travail à des sources de données externes
Travaux pratiques
Créer un espace de travail et le connecter à des sources de données externes.
4
Les différents types de ressources : clusters et SQL warehouse
- Présentation
- Les différents types de calculs
- La création d'un cluster
- La gestion du cluster
Travaux pratiques
Identifier les différents types de calculs, créer et gérer un cluster.
5
Unity Catalog
- La création d'un catalogue
- La connexion à des données à partir de Unity Catalog
- L'ajout d'une table dans le schéma du catalogue
- La définition des autorisations sur une table du catalogue
- Focus : connexion à des bases de données SQL
- D'autres méthodes pour ajouter des données au catalogue
Travaux pratiques
Créer un catalogue et y connecter des données. Ajouter une table, définir des autorisations et maîtriser la connexion à des bases de données SQL.
6
Databricks : les notebooks
- Les objectifs et les intérêts des notebooks
- Le principe des cellules
- Les commandes
- Les magic command
- Programmation PySpark, SQL...
- L'utilisation des cellules et la visualisation d'un résultat
- L'export et le partage des notebooks
Travaux pratiques
Connecter Databricks sur des outils de stockage (ADLS, base de données SQL, API), requêter, transformer et stocker des données dans Databricks. Comprendre les différents formats possibles (Parquet, Delta, table externe, etc.).
7
Principe de Spark et Delta
- Présentation et prise en main du Spark SQL
- Concepts de delta lake
- Gestion du cycle de vie des tables : merge delta, delete/insert
8
Orchestration des traitements
- L'appel de notebooks depuis Azure data factory et la configuration
- L'utilisation des workflows Databricks
- Le paramétrage et la configuration des notebooks Databricks depuis un workflow
- Introduction à Databricks Delta Live Tables
Travaux pratiques
Manipuler les workflows Databricks, paramétrer et configurer des notebooks Databricks depuis un workflow.
9
Databricks SQL
- Databricks SQL : administration
- L'éditeur SQL
- La création et l'exécution d'une requête
- Planifier une requête
- Créer des alertes
- Le partage du résultat d'une requête
- Les options disponibles sur les résultats d'une requête : export, visualisation, filtres d'affichage, paramétrage d'un résultat
Travaux pratiques
Créer une requête, en partager le résultat.