Data Engineer, Bootcamp (13 weken)

door DataScientest

Praktijkcursus - 57d - 399u00 - Ref. 4II
Prijs : 7490 € V.B.

Data Engineer, Bootcamp (13 weken)

door DataScientest



Devenez expert en analyse de données avec ce parcours proposé par notre partenaire DataScientest. Un Data Engineer a pour mission de concevoir des outils et solutions qui vont permettre de traiter et d’analyser de grands volumes de données. Cette formation certifiante se déroule à distance dans un format hybride mêlant temps d’échanges synchrones avec un formateur expert, exercices pratiques et modules E-learning. Basée sur la pédagogie Learning By Doing, vous réaliserez un projet fil rouge en équipe afin de mettre en pratique vos connaissances. Lors de votre inscription, vous serez rattaché à l’une des promotions Datascientest. A l’issue de cette formation, vous obtiendrez un co-certificat « Data Engineer » des Mines Paris - PSL Executive et de DataScientest ainsi que les blocs de compétence 2 et 3 de la certification RNCP « Data Engineer ». Contactez-nous dès maintenant pour connaître les prochaines dates !


Catalogus
Op maat

Online cursus

Ref. 4II
  399u00
Prix : 7490 € V.B.
Taal : NL
Deze opleiding is ook beschikbaar in het Engels.




Devenez expert en analyse de données avec ce parcours proposé par notre partenaire DataScientest. Un Data Engineer a pour mission de concevoir des outils et solutions qui vont permettre de traiter et d’analyser de grands volumes de données. Cette formation certifiante se déroule à distance dans un format hybride mêlant temps d’échanges synchrones avec un formateur expert, exercices pratiques et modules E-learning. Basée sur la pédagogie Learning By Doing, vous réaliserez un projet fil rouge en équipe afin de mettre en pratique vos connaissances. Lors de votre inscription, vous serez rattaché à l’une des promotions Datascientest. A l’issue de cette formation, vous obtiendrez un co-certificat « Data Engineer » des Mines Paris - PSL Executive et de DataScientest ainsi que les blocs de compétence 2 et 3 de la certification RNCP « Data Engineer ». Contactez-nous dès maintenant pour connaître les prochaines dates !


Pedagogische doelstellingen
Aan het einde van de training is de deelnemer in staat om:
Ontwikkel een technische architectuur voor gegevensbeheer.
Implementeer een oplossing voor massale gegevensanalyse met kunstmatige intelligentie.

Doelgroep
Mensen met interesse in programmeren en gegevensmanipulatie.

Voorafgaande vereisten
Un diplôme ou un titre de niveau bac+3 et des connaissances en Python, SQL, Linux.
Pour les candidats ne présentant pas le niveau de qualification requis, une dérogation est possible sur dossier.

Certificatie
Pour clôturer la formation, l’équipe pédagogique évaluera le projet fil rouge de l’apprenant à l’aide d’un rapport écrit et d’une soutenance à distance. La validation des compétences développées au cours de la formation Data Engineer vous permettra d’obtenir : • Un co-certificat « Data Engineer » des Mines Paris - PSL Executive et de DataScientest • Les blocs de compétence 2 et 3 de la certification RNCP de niveau 7 “Data Engineer” enregistrée au RNCP sous le n°RNCP38919.

Praktische modaliteiten
Digitale activiteiten
Online cursussen en oefeningen, masterclasses in groepen, vraag- en antwoordsessies, ondersteunende lessen, e-mailondersteuning, rode draad projecten, een-op-een loopbaancoaching, sociaal leren.
Mentorschap
Un formateur expert accompagne l’apprenant tout au long de sa formation. Il échange régulièrement avec lui sur son projet fil rouge et l’accompagne lors de points de mentorat (individuel). Plusieurs formateurs animent également les différentes masterclass (classes collectives) et répondent aux questions des apprenants à tout moment depuis un forum dédié. En complément, de nombreuses séances de questions-réponses peuvent être organisées pour aider les apprenants.
Pedagogiek en praktijk
Lors de l’inscription, l’apprenant est affecté à une promotion (dates à définir lors de l’inscription) et reçoit son calendrier de formation. Le parcours de formation est découpé en « Sprint » de plusieurs semaines sur une thématique dédiée. Chaque semaine l’apprenant est convié à un temps d’échange avec le formateur qui se présente sous la forme de masterclass (classe collective) ou de points de mentorat (individuel). Pendant 80% du temps, l’apprenant travaille en autonomie sur la plateforme d’enseignement. Tous les modules intègrent des exercices pratiques permettant de mettre en œuvre les concepts développés en cours. L’apprenant doit également travailler en binôme ou trinôme sur un projet fil rouge tout au long de la formation. Cela lui permettra de développer et faire reconnaître ses compétences. En complément, des événements et ateliers thématiques sont régulièrement proposés pour permettre aux apprenants de découvrir les dernières innovations en matière de Data Science. Afin de suivre efficacement la formation, nous estimons le temps travail nécessaire entre 35 et 40 heures par semaine.

Opleidingsprogramma

1
Volgende sessiedata

  • Oktober 2025: Begint op 07/10/25
  • November 2025: Start op 04/11/25
  • December 2025: Begint op 02/12/25

2
Programmeren

  • Python: variabelen, types, operatoren, lussen, functies, klassen, modules.
  • Python: multithreading en multiprocessing op Python, asynchrone functie, MyPy-bibliotheek.
  • Webscraping: BeautifulSoup, navigatie door HTML-documenten en identificatie van gegevens.

3
Geavanceerde gereedschappen

  • Git: introductie, Git repository, branch, tag en samenvoegen.
  • GitHub: introductie tot het platform, fork, pull request, issues, pull en push, Github Acties.
  • Linux-systemen en Bash-scripts: Linux-systemen, een terminal gebruiken, Bash-scripts.

4
Grote gegevensvariëteit

  • SQL: relationele databases, SQL-taal, diepgaande analyse en toepassing.
  • ElasticSearch: zoekmachine, index, mapping, invoerknooppunt, tekstanalysator.
  • MongoDB: presentatie, MongoDB-query's.
  • Neo4j: grafiekgeoriënteerde gegevens, Cypher-query's, gegevens laden, Python-client voor Neo4J.
  • Hbase: kolomgeoriënteerde databases, gegevensmodificatie met Python en Happybase.

5
Batchen en streamen

  • PySpark: gedistribueerd computergebruik, RDD en Dataframe API's, gedistribueerde gegevensverwerking, gedistribueerd machinaal leren.
  • Kafka: architectuur en voordelen, configuratiebeheer, consumentenconfiguraties.
  • Streaming met Spark: real-time gegevensverwerking, mini-batch streaming, Structured Streaming, pipelines.

6
Praktische gegevensopslag

  • Snowflake: Data Warehousing met robuuste beveiliging, SQL-gegevensanalyse voor de cloud, platformoptimalisatie.
  • Data Warehousing met DBT (ELT): transformaties, datasets van hoge kwaliteit, geautomatiseerde uitvoering.

7
Cloud AWS

  • AWS Solution Architect: best practices, architectuurontwerp, voortdurende verbetering en automatisering.
  • AWS Solution Architect: presentatie van de AWS-cloud, belangrijkste diensten op het AWS-platform.

8
Machinaal leren

  • Statistiek: numerieke variabelen, categorische variabelen, relaties tussen variabelen.
  • Datavisualisatie: verschillende soorten grafieken met Matplotlib, Dash-toepassingen maken.
  • Machine Learning: voorbewerking, Machine Learning-algoritmen (regressie, classificatie, clustering).
  • ML Flow: MLFlow-architectuur, MLFlow-volgen, MLFlow-projecten, MLFlow-modellen, MLFlow-register, levenscyclus.

9
DevOps - Virtualisatie

  • API's: microservices-architecturen, HTTP-methodes, FastAPI- en Flask-bibliotheken, OpenAPI-specificatie, API-beheer.
  • Docker: concept van containerisatie, images en containers, communicatie, persistentie, Dockerhub, docker-compose.
  • API-beveiliging: API Keys, HTTP Basic authenticatie, JSON Web Token en HTTPS.
  • Kubernetes: inzetten en beheren van containers, initialisatie en architectuur, API's met Kubernetes.

10
CI/CD en bewaking

  • Airflow: orkestratieconcept, acyclische gerichte grafiek of DAG, operatoren, taakbeheer, monitoring.
  • Unit testen met Python: unit testen met Pytest, integratietesten, voordelen van testen, integratie.
  • GitLab: installatie, initialisatie, toevoegen en verwijderen, Git Blame, Tag, repository status, conflictbeheer.
  • Prometheus & Grafana: nut van monitoring, Prometheus Query Language, Dashboard met Grafana, integratie.