> Formations > Technologies numériques > Data : Pilotage et Ingénierie de la Donnée > Data Engineering, écosystème du Big Data > Formation Databricks pour data engineers > Formations > Technologies numériques > Formation Databricks pour data engineers

Formation : Databricks pour data engineers

Databricks pour data engineers



Nouvelle formation

En deux jours, cette formation offre aux ingénieurs data les clés pour exploiter tout le potentiel d’Azure Databricks dans un contexte cloud moderne. De la création de notebooks à l’orchestration de jobs, en passant par l’utilisation du SQL, du Datastore et l’intégration avec Power BI, elle met l’accent sur la performance, l’automatisation et la valorisation des données au service de projets data industrialisés.


INTER
INTRA
SUR MESURE

Cours pratique
Disponible en anglais, à la demande

Réf. DKI
  3j - 21h00
Prix : Nous contacter
Pauses-café et
déjeuners offerts




En deux jours, cette formation offre aux ingénieurs data les clés pour exploiter tout le potentiel d’Azure Databricks dans un contexte cloud moderne. De la création de notebooks à l’orchestration de jobs, en passant par l’utilisation du SQL, du Datastore et l’intégration avec Power BI, elle met l’accent sur la performance, l’automatisation et la valorisation des données au service de projets data industrialisés.


Objectifs pédagogiques
À l’issue de la formation, le participant sera en mesure de :
Comprendre et utiliser les différentes fonctionnalités de Databricks
Créer et manipuler des notebooks
Mettre en place des jobs
Utiliser SQL avec Databricks
Comprendre et utiliser le Datastore de Databricks
Créer des dashboards avec le SQL Analytics
Connecter Databricks et Power BI

Public concerné
Data engineers, collaborateurs impliqués dans la mise en place, l’automatisation et l’industrialisation de pipelines data sur des plateformes cloud modernes.

Prérequis
Bonne connaissance de SQL et de la manipulation de données.

Méthodes et moyens pédagogiques
Travaux pratiques
Échanges, exercices et travaux pratiques.
Méthodes pédagogiques
Active

Modalités d'évaluation
Le formateur évalue la progression pédagogique du participant tout au long de la formation au moyen de QCM, mises en situation, travaux pratiques…
Le participant complète également un test de positionnement en amont et en aval pour valider les compétences acquises.

Programme de la formation

1
Introduction

  • Azure : les grands principes du cloud, présentation et intérêts

2
Databricks : vue d'ensemble

  • Présentation d'Azure Databricks : les concepts (data lakehouse, ETL, data warehouse)
  • Gouvernance des données : concepts du Unity Catalog
  • Avantages de Databricks

3
Les espaces de travail

  • Les ressources Azure Databricks
  • La création d'un espace de travail
  • La connexion de l'espace de travail à des sources de données externes
Travaux pratiques
Créer un espace de travail et le connecter à des sources de données externes.

4
Les différents types de ressources : clusters et SQL warehouse

  • Présentation
  • Les différents types de calculs
  • La création d'un cluster
  • La gestion du cluster
Travaux pratiques
Identifier les différents types de calculs, créer et gérer un cluster.

5
Unity Catalog

  • La création d'un catalogue
  • La connexion à des données à partir de Unity Catalog
  • L'ajout d'une table dans le schéma du catalogue
  • La définition des autorisations sur une table du catalogue
  • Focus : connexion à des bases de données SQL
  • D'autres méthodes pour ajouter des données au catalogue
Travaux pratiques
Créer un catalogue et y connecter des données. Ajouter une table, définir des autorisations et maîtriser la connexion à des bases de données SQL.

6
Databricks : les notebooks

  • Les objectifs et les intérêts des notebooks
  • Le principe des cellules
  • Les commandes
  • Les magic command
  • Programmation PySpark, SQL...
  • L'utilisation des cellules et la visualisation d'un résultat
  • L'export et le partage des notebooks
Travaux pratiques
Connecter Databricks sur des outils de stockage (ADLS, base de données SQL, API), requêter, transformer et stocker des données dans Databricks. Comprendre les différents formats possibles (Parquet, Delta, table externe, etc.).

7
Principe de Spark et Delta

  • Présentation et prise en main du Spark SQL
  • Concepts de delta lake
  • Gestion du cycle de vie des tables : merge delta, delete/insert

8
Orchestration des traitements

  • L'appel de notebooks depuis Azure data factory et la configuration
  • L'utilisation des workflows Databricks
  • Le paramétrage et la configuration des notebooks Databricks depuis un workflow
  • Introduction à Databricks Delta Live Tables
Travaux pratiques
Manipuler les workflows Databricks, paramétrer et configurer des notebooks Databricks depuis un workflow.

9
Databricks SQL

  • Databricks SQL : administration
  • L'éditeur SQL
  • La création et l'exécution d'une requête
  • Planifier une requête
  • Créer des alertes
  • Le partage du résultat d'une requête
  • Les options disponibles sur les résultats d'une requête : export, visualisation, filtres d'affichage, paramétrage d'un résultat
Travaux pratiques
Créer une requête, en partager le résultat.


Solutions de financement
Plusieurs solutions existent pour financer votre formation et dépendent de votre situation professionnelle.
Découvrez-les sur notre page Comment financer sa formation ou contactez votre conseiller formation.

Horaires
Les cours ont lieu de 9h à 12h30 et de 14h à 17h30.
Les participants sont accueillis à partir de 8h45. Les pauses et déjeuners sont offerts.
Pour les formations de 4 ou 5 jours, quelle que soit la modalité, les sessions se terminent à 16h le dernier jour.