> Formations > Technologies numériques > Développement logiciel > Python, C, C++ > Formation Spark Python, développer des applications pour le Big Data > Formations > Technologies numériques > Formation Spark Python, développer des applications pour le Big Data
Nouvelle formation

Spark Python, développer des applications pour le Big Data

Spark Python, développer des applications pour le Big Data

Télécharger au format pdf Partager cette formation par e-mail 2

Télécharger au format pdf Partager cette formation par e-mail 2

Spark est un framework de calcul distribué permettant de manipuler des données volumineuses. Au départ conçu pour accélérer les traitements d'Hadoop, il est devenu un système autonome. Il peut se programmer avec quatre langages, dont Python qui en est devenu le prédominant. Ce cours vous fait découvrir Spark Python.


Inter
Intra
Sur mesure

Cours pratique en présentiel ou en classe à distance

Réf. QNC
Prix : 1990 € H.T.
  3j - 21h
Pauses-café et
déjeuners offerts




Spark est un framework de calcul distribué permettant de manipuler des données volumineuses. Au départ conçu pour accélérer les traitements d'Hadoop, il est devenu un système autonome. Il peut se programmer avec quatre langages, dont Python qui en est devenu le prédominant. Ce cours vous fait découvrir Spark Python.

Objectifs pédagogiques
À l’issue de la formation, le participant sera en mesure de :
  • Découvrir les concepts fondamentaux de Spark
  • Utiliser le concept des RDD de Spark
  • Exploiter des données avec Spark SQL
  • Effectuer de l’analyse temps réel avec Spark Streaming
  • Utiliser Spark avec les notebooks Jupyter et Zeppelin, utiliser la librairie Python Koalas (Pandas pour Spark)
  • Aborder le machine learning avec Spark, utiliser Spark sur un supercalculateur

Public concerné
Toute personne connaissant Python souhaitant appréhender le framework Spark de la fondation Apache.

Prérequis
Bonne pratique du langage Python. Connaissances en big data.

Programme de la formation

Présentation d’Apache Spark

  • Historique du framework.
  • Les quatre principaux composants : Spark SQL, Spark Streaming, MLlib et GraphX.
  • Les outils et les librairies Python pour Spark : PySpark, notebooks Jupyter/Zeppelin, Koalas.
  • Les concepts de programmation de Spark.
  • Exécuter Spark dans un environnement distribué : cluster et HPC.
Travaux pratiques
Mise en place de l’environnement Python pour Spark. Mise en œuvre de scripts manipulant des concepts de Spark.

Utiliser Spark avec Python : les Resilient Distributed Dataset (RDD)

  • Configurer son environnement Python.
  • Se connecter à Spark avec Python : les contextes et les sessions.
  • Présentation des RDD. Créer, manipuler et réutiliser des RDD.
  • Les principales fonctions/transformations, mise en œuvre d’algorithmes de type map/reduce.
  • Accumulateurs et variables broadcastées.
  • Utiliser des partitions.
  • Utiliser les notebooks et soumettre des jobs Python.
Travaux pratiques
Manipulation de contextes et de sessions. Création et réutilisation de RDD. Soumission de travaux.

Manipuler des données structurées

  • Présentation de Spark SQL et des DataFrames et datasets.
  • Les différents types/formats de sources de données.
  • Interopérabilité avec les RDD.
  • Utiliser la librairie Python Koalas.
Travaux pratiques tutorés
Exécution de requêtes avec Spark SQL. Mise en œuvre de DataFrames et datasets. Manipulation de données avec la librairie Koalas.

Machine learning avec Spark

  • Introduction au machine learning.
  • Les différentes classes d'algorithmes.
  • Présentation de SparkML et MLlib.
  • Implémentations des différents algorithmes dans MLlib.
Travaux pratiques
Mise en œuvre d’apprentissage supervisé au travers d’une classification.

Analyser en temps réel avec Spark Streaming

  • Comprendre l’architecture du streaming.
  • Présentation des Discretized Streams (DStreams).
  • Les différents types de sources.
  • Manipulation de l'API (agrégations, watermarking...).
  • Machine learning en temps réel.
Travaux pratiques
Création de statistiques en temps réel à partir d’une source de données et prédictions à l’aide du machine learning.

Théorie des graphes

  • Introduction à la théorie des graphes (nœuds, arêtes, graphes orientés, chemins, principaux algorithmes).
  • Utilisation de l’API.
  • Présentation des librairies GraphX et GraphFrame.
Travaux pratiques
Mise en œuvre d’un algorithme de recherche du plus court chemin ou page rank et visualisation du graphe.


Modalités pratiques
Exercice
De nombreux exercices sont réalisés pour illustrer les sujets.
Méthodes pédagogiques;
Chaque sujet est illustré par des démonstrations se déroulant sur un cluster dans le cloud et/ou sur un supercalculateur. Les participants réalisent des exercices après la présentation des concepts.

Modalités d'évaluation
Le formateur évalue la progression pédagogique du participant tout au long de la formation au moyen de QCM, mises en situation, travaux pratiques…
Le participant complète également un test de positionnement en amont et en aval pour valider les compétences acquises.

Parcours certifiants associés
Pour aller plus loin et renforcer votre employabilité, découvrez les parcours certifiants qui contiennent cette formation :

Solutions de financement
Pour trouver la meilleure solution de financement adaptée à votre situation : contactez votre conseiller formation.
Il vous aidera à choisir parmi les solutions suivantes :
  • Le plan de développement des compétences de votre entreprise : rapprochez-vous de votre service RH.
  • Le dispositif FNE-Formation.
  • L’OPCO (opérateurs de compétences) de votre entreprise.
  • Pôle Emploi sous réserve de l’acceptation de votre dossier par votre conseiller Pôle Emploi.
  • Le plan de développement des compétences de votre entreprise : rapprochez-vous de votre service RH.
  • Le dispositif FNE-Formation.
  • L’OPCO (opérateurs de compétences) de votre entreprise.
  • Pôle Emploi sous réserve de l’acceptation de votre dossier par votre conseiller Pôle Emploi.

Horaires
En présentiel, les cours ont lieu de 9h à 12h30 et de 14h à 17h30.
Les participants sont accueillis à partir de 8h45. Les pauses et déjeuners sont offerts.
En classe à distance, la formation démarre à partir de 9h.
Pour les stages pratiques de 4 ou 5 jours, quelle que soit la modalité, les sessions se terminent à 15h30 le dernier jour.

Dates et lieux
Pour vous inscrire, sélectionnez la ville et la date de votre choix.
Du 18 au 20 juillet 2022 *
FR
Nantes
Session garantie
S’inscrire
Du 17 au 19 août 2022
FR
Lille
S’inscrire
Du 17 au 19 août 2022
FR
Classe à distance
S’inscrire
Du 17 au 19 août 2022
FR
Paris La Défense
S’inscrire
Du 5 au 7 septembre 2022
FR
Bordeaux
S’inscrire
Du 5 au 7 septembre 2022
FR
Toulouse
S’inscrire
Du 7 au 9 septembre 2022
FR
Nantes
S’inscrire
Du 7 au 9 septembre 2022
FR
Strasbourg
S’inscrire
Du 14 au 16 septembre 2022
FR
Lyon
S’inscrire
Du 21 au 23 septembre 2022
FR
Aix-en-Provence
S’inscrire
Du 21 au 23 septembre 2022
FR
Sophia-Antipolis
S’inscrire
Du 26 au 28 septembre 2022 *
FR
Paris La Défense
Session garantie
S’inscrire
Du 26 au 28 septembre 2022
FR
Lille
S’inscrire
Du 26 au 28 septembre 2022
FR
Classe à distance
S’inscrire
Du 24 au 26 octobre 2022
FR
Classe à distance
S’inscrire
Du 24 au 26 octobre 2022
FR
Paris La Défense
S’inscrire
Du 2 au 4 novembre 2022
FR
Strasbourg
S’inscrire
Du 2 au 4 novembre 2022
FR
Sophia-Antipolis
S’inscrire
Du 2 au 4 novembre 2022
FR
Aix-en-Provence
S’inscrire
Du 2 au 4 novembre 2022
FR
Nantes
S’inscrire
Du 7 au 9 novembre 2022
FR
Lyon
S’inscrire
Du 28 au 30 novembre 2022
FR
Toulouse
S’inscrire
Du 28 au 30 novembre 2022
FR
Bordeaux
S’inscrire
Du 19 au 21 décembre 2022
FR
Lille
S’inscrire
Du 19 au 21 décembre 2022
FR
Classe à distance
S’inscrire
Du 19 au 21 décembre 2022
FR
Paris La Défense
S’inscrire