> formation Technologies numériques > formation Big Data, Intelligence Artificielle > formation Big Data, NoSQL > formation Spark, développer des applications pour le Big Data

Avis loadedNote : 3,9Length : 22TotalNote : 340TotalNote20 : 6
Toutes nos formations Big Data, NoSQL

Formation Spark, développer des applications pour le Big Data

3,9 / 5
Stage pratique
Best
Durée : 3 jours
Réf : SPK
Prix  2021 : 2240 € H.T.
Pauses et déjeuners offerts
  • Programme
  • Participants / Prérequis
  • Intra / sur-mesure
  • avis clients
Programme

Souvent présenté comme le successeur de Hadoop, SPARK simplifie la programmation des traitements BigData permettant l'utilisation de scala, Python ou Java . Cette formation apprendra aux programmeurs à traiter un flux de données en temps réel et à effectuer des traitements batch (du SQL jusqu'au Machine Learning).

Objectifs pédagogiques

À l’issue de la formation, le participant sera en mesure de :
  • Maîtriser les concepts fondamentaux de Spark
  • Développer des applications avec Spark Streaming
  • Faire de la programmation parallèle avec Spark sur un cluster
  • Exploiter des données avec Spark SQL
  • Avoir une première approche du Machine Learning

Travaux pratiques

Mise en pratique des notions vues en cours à l'aide du langage Java.
PROGRAMME DE FORMATION

Présentation d'Apache Spark

  • Historique du Framework.
  • Les différentes versions de Spark (Scala, Python et Java).
  • Comparaison avec l'environnement Apache Hadoop.
  • Les différents modules de Spark.

Travaux pratiques
Installation et configuration de Spark. Exécution d'un premier exemple avec le comptage de mots.

Programmer avec les Resilient Distributed Dataset (RDD)

  • Présentation des RDD.
  • Créer, manipuler et réutiliser des RDD.
  • Accumulateurs et variables broadcastées.
  • Utiliser des partitions.

Travaux pratiques
Manipulation de différents Datasets à l'aide de RDD et utilisation de l'API fournie par Spark.

Manipuler des données structurées avec Spark SQL

  • SQL, DataFrames et Datasets.
  • Les différents types de sources de données.
  • Interopérabilité avec les RDD.
  • Performance de Spark SQL.
  • JDBC/ODBC server et Spark SQL CLI.

Travaux pratiques
Manipulation de Datasets via des requêtes SQL. Connexion avec une base externe via JDBC.

Spark sur un cluster

  • Les différents types d'architecture : Standalone, Apache Mesos ou Hadoop YARN.
  • Configurer un cluster en mode Standalone.
  • Packager une application avec ses dépendances.
  • Déployer des applications avec Spark-submit.
  • Dimensionner un cluster .

Travaux pratiques
Mise en place d'un cluster Spark.

Analyser en temps réel avec Spark Streaming

  • Principe de fonctionnement.
  • Présentation des Discretized Streams (DStreams).
  • Les différents types de sources.
  • Manipulation de l'API.
  • Comparaison avec Apache Storm.

Travaux pratiques
Consommation de logs avec Spark Streaming.

Manipuler des graphes avec GraphX

  • Présentation de GraphX.
  • Les différentes opérations.
  • Créer des graphes.
  • Vertex and Edge RDD.
  • Présentation de différents algorithmes.

Travaux pratiques
Manipulation de l'API GraphX à travers différents exemples.

Machine Learning avec Spark

  • Introduction au Machine Learning.
  • Les différentes classes d'algorithmes.
  • Présentation de SparkML et MLlib.
  • Implémentations des différents algorithmes dans MLlib.

Travaux pratiques
Utilisation de SparkML et MLlib.

Participants / Prérequis

» Participants

Développeurs, architectes.

» Prérequis

Bonnes connaissances du langage Java.
Intra / sur-mesure

Demande de devis intra-entreprise
(réponse sous 48h)

Vos coordonnées

En cochant cette case, j’atteste avoir lu et accepté les conditions liées à l’usage de mes données dans le cadre de la réglementation sur la protection des données à caractère personnel (RGPD).
Vous pouvez à tout moment modifier l’usage de vos données et exercer vos droits en envoyant un email à l’adresse rgpd@orsys.fr
En cochant cette case, j’accepte de recevoir les communications à vocation commerciale et promotionnelle de la part d’ORSYS Formation*
Vous pouvez à tout moment vous désinscrire en utilisant le lien de désabonnement inclus dans nos communications.
* Les participants inscrits à nos sessions de formation sont également susceptibles de recevoir nos communications avec la possibilité de se désabonner à tout moment.
Avis clients
picto avis clients
MARIE JEANNE L. 20/09/2021
3 / 5
Trop dense en terme de contenu donc au bout d’un moment, on décroche et justes des exercices codés à l’avance par le formateur qu’on lance en essayant de suivre en live, mais qui sont à reprendre dans le calme pour essayer d’en maîtriser le contenu. Formation à distance que j’ai personnellement trouvé catastrophique. Gros mal de tête

THÉOPHILE M. 20/09/2021
4 / 5
Les explications étaient très détaillées, des fois sur des sujets que je connaissais déjà (mais que tout le monde ne connaissait pas). Le niveau des exercices aurait pu être un peu plus avancé.

GUILLAUME H. 20/09/2021
4 / 5
Beaucoup d’informations à assimiler en très peu de temps. La formation est complète, mais elle est très lourde à suivre. Une approche différente des TP aurait pu alléger l’ensemble : Au lieu d’expliquer chaque fonction une par une (ce qui est long et très lourd à suivre) avant de nous laisser appliquer les consignes, un peu plus d’autonomie et juste quelques explications écrites pour les fon

PASCAL F. 15/09/2021
4 / 5
Bonne pédagogie, contenu très dense et intéressant.

MATHIEU M. 15/09/2021
4 / 5
Dans l’ensemble bien. Proposition amélioration : passer plus de temps et prendre le temps sur la partie théorique

AURÉLIEN D. 15/09/2021
4 / 5
Peut être restreindre les sujets pour se concentrer sur les RDD-Dataframes, Serialization-Deser , les schemas et enlever le graphX et le ML

ARNAUD B. 21/07/2021
4 / 5
Le support des cours est éclaté dans plusieurs mails. Trop de temps passé au départ sur plusieurs exercices sans avoir de solution au fil de l’eau Difficulté au départ quand il faillait coder en mode ligne de commande en python ou en scala (alors que la formation mentionne une bonne connaissance en java)

ELEA D. 14/06/2021
5 / 5
Très intéressant et très bien illustré par des exemples pratiques parlants

SÉBASTIEN L. 14/06/2021
5 / 5
Très bonne qualité d’animation, même à distance. Cours très intéressant permettant d’avoir une bonne vision sur l’ensemble des fonctionnalités offertes par Spark.

BENAISSA D. 14/06/2021
4 / 5
Bien. - Rapport 3 jours- qualité. - On peut pas tout traiter en 3 jours. - Spark coté devOps à proposer plus ( je suppose que par manque de temps )

HERVÉ A. 14/06/2021
4 / 5
La répartition entre cours et TP est bonne. Très bonne écoute de la part du formateur. La partie spark MLlib est plus difficile à appréhender sans notion mathématique et statistique.

DORIAN K. 31/05/2021
5 / 5
J'ai trouvé que cela couvrait bien les différents sujets.

ABDILLAH A. 31/05/2021
5 / 5
Formation très satisfaisante avec un excellent équilibre entre la théorie et la pratique. Le formateur est très compétent et impliqué !

BASTIEN L. 24/02/2021
5 / 5
Formateur à l’écoute et s’adapte au niveau de chacun Possibilité de poser des questions

FLORENT D. 27/01/2021
3 / 5
Contenu trop large pour mon cas d’utilisation, malgré la connaissance plus générale que cela m’apporte, je ne pourrais pas réutiliser les 3-4 de ce que cette formation m’a apprise dans ma situation.

YVES J. 27/01/2021
4 / 5
Cours qui survol un peu tout, donc, focement peu approfondi.

BACHA DORIAN F. 02/12/2020
4 / 5
Je m’attendais à plus d’informations sur le fonctionnement global de spark ( mode cluster, driver...) et moins de problèmes de développeurs (dépendances, maven, conception d’algo..) ce qui aurait été plus utile spécifiquement dans mon cas .

BRUNO B. 02/12/2020
4 / 5
Très clair et très pédagogue. J’ai l’impression que le support de cours datait un peu par rapport aux versions des logiciels disponibles désormais. L’ensemble des support a été partagé au travers de Microsoft Teams ou de shares, mais n’était pas dispo dans l’espace MyOrsys.

GUILLAUME L. 02/12/2020
5 / 5
Formation claire et bien structurée. Agréable et satisfaisante dans l’ensemble. Je pense cependant que le côté distribution du code sur des serveurs distants n’a pas été suffisamment abordé compte tenu de son importance dans Spark. Les partitions ont été évoquées mais pas développées, et un des exemples (Redis) ne prenait pas en compte cette distribution, donnant une fausse impression de simplicit

DORRA B. 02/12/2020
3 / 5
Cette formation est très bien pour une initiation au Big Data et la familiarisation avec les outils Big Data. Mais étant data engineer je connaissais quasiment tout (à part la partie graph X et ML) j aurai aimé une formation plus poussée et approfondie sur spark. Le formateur est très pédagogue et à l’écoute.

EL BIR A. 02/12/2020
3 / 5
Je m’attendais à une formation plus poussée en matière des détails fournis . En tout c’est ce que m’a expliqué ma boite. Je pense que pour un débutant le contenu est très intéressent sauf que pour une personne ayant déjà manipulée du spark en mission c’est plutôt un rappel sur certains sujet et plutôt une validation des connaissances. Je salut l’effort du formateur q

OLIVIER J. 02/12/2020
4 / 5
Les TP ont pris le pas sur la théorie. Les TP semblent simplistes.
Avis clients 3,9 / 5

Les avis clients sont issus des feuilles d’évaluation de fin de formation. La note est calculée à partir de l’ensemble des avis datant de moins de 12 mois.

Thème associé