1
Présentation de Apache Hop
- Pourquoi Hop ?
- Historique et présentation au sens large
- Installation et configuration de l'outil
Travaux pratiques
Installer et configurer Apache Hop.
2
Génération d'une première extraction de données
- Les workflows et pipelines (ordonnancement)
- De l'extraction à l'alimentation de données
- Appréhender et gérer les flux de data
- Exécution d'un pipeline et d'un workflow
Travaux pratiques
Concevoir un pipeline et élaborer un workflow.
3
Accéder aux données sources et cibles
- La notion de métadonnées
- Configurer l'accès aux sources de données
- Les sources/cibles supportées
- Les liens entre les sources (jointures)
- Alimentation en Insert/Update (insertion/mise à jour)
Travaux pratiques
Configurer l'accès aux sources de données en identifiant les cibles/sources supportées et les jointures.
4
Manipuler les données
- Trier son flux ascendant ou descendant
- Dédoubler son flux
- Filtrer ses données selon plusieurs critères (alléger le flux)
- Extraction d'informations à partir d'un champ (chaîne de caractères)
- Remplacer une donnée par une autre
- Gestion des opérateurs/opérations de calculs sur le flux
- Bien utiliser le produit cartésien
- Joindre les informations issues de données hétérogènes
- Comparer des flux de données
Travaux pratiques
Manipuler les flux en triant, dédoublant, filtrant les données. Comparer les flux.
5
Enrichir son flux de données
- Génération de logs
- Création et récupération des variables (dates, numériques, alphanumériques)
- Utilisation du résultat d'un flux
- Les propriétés d'un flux et de son ordonnanceur
Travaux pratiques
Créer et récupérer des variables, utiliser le résultat du flux et enrichir son flux de données.
6
Les boucles
- Les problématiques
- Les boucles avec paramètres et le composant "Copie lignes vers résultat"
- Les boucles avec les composants "Copie lignes vers résultat" et "Récupération lignes depuis résultat"
Travaux pratiques
Comprendre et manipuler les composants des boucles.
7
Exploitation
- Gérer les erreurs
- Générer des traces (logs)
- Comprendre les erreurs et lancer des alertes (débogage)
- La parallélisation (exécution simultanée de plusieurs flux de données)
- Import/export des développements
- Automatisation des tâches/transformations
- Documentation (mise en place des normes en cas d'erreurs ou de reprises)
Travaux pratiques
Exécuter des flux simultanément, gérer les erreurs et automatiser des tâches.