> Formations > Technologies numériques > Intelligence Artificielle, Big Data > Big Data > Formation Hadoop, installation et administration > Formations > Technologies numériques > Formation Hadoop, installation et administration

Formation : Hadoop, installation et administration

Hadoop, installation et administration




La plateforme Apache Hadoop est la première solution a avoir réellement rendu possibles des traitements (distribués) sur d'énormes quantités de données. Ce cours vous montrera comment installer, configurer et administrer un cluster Hadoop ainsi que d'autres composants de l'écosystème (Hive, Pig, HBase, Flume...).


INTER
INTRA
SUR MESURE

Cours pratique en présentiel ou en classe à distance
Disponible en anglais, à la demande

Réf. HOD
  4j - 28h00
Prix : 2920 € H.T.
Pauses-café et
déjeuners offerts




La plateforme Apache Hadoop est la première solution a avoir réellement rendu possibles des traitements (distribués) sur d'énormes quantités de données. Ce cours vous montrera comment installer, configurer et administrer un cluster Hadoop ainsi que d'autres composants de l'écosystème (Hive, Pig, HBase, Flume...).


Objectifs pédagogiques
À l’issue de la formation, le participant sera en mesure de :
Découvrir les concepts et les enjeux liés à Hadoop
Comprendre le fonctionnement de la plateforme et de ses composants
Installer la plateforme et la gérer
Optimiser la plateforme

Public concerné
Administrateurs de cluster Hadoop, développeurs.

Prérequis
Bonnes connaissances de l'administration Linux. Expérience requise.
Vérifiez que vous avez les prérequis nécessaires pour profiter pleinement de cette formation en faisant  ce test.

Méthodes et moyens pédagogiques
Travaux pratiques
Installation du cluster Hadoop et paramétrage.
Méthodes pédagogiques
Méthode pédagogique de type "magistral" avec des exercices pratiques à l'appui, après chaque notion ou groupe de notions exposées.

Modalités d'évaluation
Le formateur évalue la progression pédagogique du participant tout au long de la formation au moyen de QCM, mises en situation, travaux pratiques…
Le participant complète également un test de positionnement en amont et en aval pour valider les compétences acquises.

Programme de la formation

Présentation du framework Apache Hadoop

  • Enjeux du Big Data et apports du framework Hadoop.
  • Présentation de l'architecture Hadoop.
  • Description des principaux composants de la plateforme Hadoop.
  • Présentation des distributions principales du marché on-premise et on-Cloud, et l’approche hybride.
  • Avantages/inconvénients de la plateforme vs les solutions alternatives.
  • Synthèse des différents composants natifs, complémentaires, et comparatif (Storm, Flink, Spark…).

Préparations et configuration du cluster Hadoop

  • Principes de fonctionnement de Hadoop Distributed File System (HDFS).
  • Principes de fonctionnement de MapReduce.
  • Design "type" du cluster.
  • Critères de choix du matériel.
Travaux pratiques
Configuration du cluster Hadoop.

Installation d'une plateforme Hadoop

  • Type de déploiement.
  • Installation d'Hadoop.
  • Installation d'autres composants (Hive, Pig, HBase, Nifi...).
  • Présentation et comparatif des piles logicielles historiques (HDP, HDF, CDH) et actuelles (CDP/CDSW…).
  • Architectures Kappa, Lambda, SMACK (Spark, Mesos, Akka, Cassandra, Kafka).
Travaux pratiques
Installation d'une plateforme Hadoop et des composants principaux.

Gestion d'un cluster Hadoop

  • Gestion des nœuds du cluster Hadoop.
  • MapReduce V2 (Yarn, Resource Manager, Application Master, Node Manager…).
  • Gestionnaires de ressources (Yarn vs Mesos).
  • Gestion des tâches via les schedulers.
  • Gestion des logs.
  • Ordonnancement des traitements (Oozie...).
  • Utiliser un manager.
Travaux pratiques
Lister les jobs, statut des queues, statut des jobs, gestion des tâches, accès à la Web UI.

Gestion des données dans HDFS

  • Import de données externes (fichiers, bases de données relationnelles) vers HDFS.
  • Manipulation des fichiers HDFS.
  • Les formats de fichiers (SequenceFile, ORC, Parquet…), leurs usages et leurs relations avec les performances.
  • Le stockage sous forme de base de données (structurée ou non) : NoSQL Hbase, SQL avec Impala, Hive, Hive LLAP…
Travaux pratiques
Importer des données externes avec Flume ou Nifi, importer des données des bases de données relationnelles avec Sqoop.

Configuration avancée

  • Autorisations et sécurité : administration, authentification, autorisations, audit, protection des données.
  • Les composants impliqués dans la sécurité : Ranger, Knox, Kerberos, KMS...
  • NameNode high availability (MRV2/YARN).
Travaux pratiques
Configuration d'un service-level authentication (SLA) et d'un Access Control List (ACL).

Monitoring et optimisation/Tuning

  • Monitoring (Ambari, Cloudera Manager, Ganglia...).
  • Les types de benchmark (DFSIO, Teragen/TeraSort/TeraValidate) et les résultats disponibles en ligne (TPCx-HS, …)
  • Comparatif entre MapReduce et TEZ.
  • Exemples d’optimisation et d’outils d’aide à l’optimisation (CDP advisor…).
  • Choix de la taille des blocs.
  • Autres options de tuning (utilisation de la compression, configuration mémoire...).
Travaux pratiques
Paramétrer, lancer et analyser des Bench, Appréhender les commandes au fil de l'eau de monitoring et d'optimisation de cluster.

Les apports de Hadoop v3

  • Les approches de type stockage Objet (Ozone).
  • Erasure coding.
  • Yarn Federation.
  • Scénarios de migration, les aspects à prendre en compte, et quelques exemples (Hortonworks vers Cloudera...).


Solutions de financement
Plusieurs solutions existent pour financer votre formation et dépendent de votre situation professionnelle.
Découvrez-les sur notre page Comment financer sa formation ou contactez votre conseiller formation.

Avis clients
5 / 5
Les avis clients sont issus des évaluations de fin de formation. La note est calculée à partir de l’ensemble des évaluations datant de moins de 12 mois. Seules celles avec un commentaire textuel sont affichées.
FRANÇOIS B.
01/10/24
5 / 5

Très bonne, très bon équilibre, formateur passionné



Horaires
les cours ont lieu de 9h à 12h30 et de 14h à 17h30.
Les participants sont accueillis à partir de 8h45. Les pauses et déjeuners sont offerts.
Pour les stages pratiques de 4 ou 5 jours, quelle que soit la modalité, les sessions se terminent à 16h le dernier jour.

Dates et lieux
Sélectionnez votre lieu ou optez pour la classe à distance puis choisissez votre date.
Classe à distance
Dernières places
Session garantie