Opleiding : Spark Gevorderd

Machine Learning en industrialisatie van analytische workflows

Praktijkcursus - 3d - 21u00 - Ref. SPN
Prijs : 2010 € V.B.

Spark Gevorderd

Machine Learning en industrialisatie van analytische workflows



Spark is een gedistribueerd rekenraamwerk dat complexe Big Data verwerking en analyse mogelijk maakt. Als je Spark al hebt gebruikt, willen we je analyses graag een stap verder brengen met machine learning en je kennis laten maken met MLOps voor het implementeren en industrialiseren van analytische modellen.


INTER
INTRA
OP MAAT

Praktijkcursus ter plaatse of via klasverband op afstand
Disponible en anglais, à la demande

Ref. SPN
  3d - 21u00
2010 € V.B.




Spark is een gedistribueerd rekenraamwerk dat complexe Big Data verwerking en analyse mogelijk maakt. Als je Spark al hebt gebruikt, willen we je analyses graag een stap verder brengen met machine learning en je kennis laten maken met MLOps voor het implementeren en industrialiseren van analytische modellen.


Pedagogische doelstellingen
Aan het einde van de training is de deelnemer in staat om:
Leer geavanceerde gegevensanalyse met Spark
Machinaal leren (ML) verwerken met Spark
Inzicht in Docker en hoe het kan worden gebruikt om analytische workflows te industrialiseren
Uitwerken en implementeren van de stadia van de analytische cyclus met Spark
Leer hoe u de analyseworkflow kunt industrialiseren
Ontdek MLOps

Doelgroep
Professionals die Spark willen gebruiken voor batch en real-time analytics.

Voorafgaande vereisten
Connaissances des API Spark, notamment RDD et DataFrame. Connaissances des algorithmes d’apprentissage supervisés et non supervisés. Maîtrise d’un des langages suivants : Scala, Python.

Praktische modaliteiten
Praktisch werk
Afwisselend theorie en praktijk. 60% oefeningen voor meer diepgang. Praktische feedback.

Opleidingsprogramma

1
Inleiding

  • Een herinnering aan de Spark API.
  • Docker-concepten en hun gebruik in gegevensanalyse.
  • Docker-containers.
Praktisch werk
De werkomgeving onder de knie krijgen, Docker-containers maken.

2
De analytische cyclus met Spark

  • Invoer van gegevens.
  • Verkenning.
  • Voorbereiding van gegevens.
  • Leerplaatsen.
  • Industrialisatie.
Workshop storytelling
Presentatie van casestudies en bespreking van de verschillende stadia in de cyclus.

3
Invoer van gegevens.

  • Laden van gegevens.
  • Batchverwerking.
  • Streamingbehandelingen.
  • Gegevensindelingen: afbeeldingen, binair, gestructureerd, Graph...
Praktisch werk
Gegevens laden vanuit verschillende bronnen.

4
Datamining

  • Beschrijvende statistieken.
  • Uitschieters en lege gegevens identificeren.
  • Ongeldige waarden en andere afwijkingen identificeren.
Praktisch werk
Anomalieën in een dataset identificeren.

5
Voorbereiding en feature engineering (datatransformatieproces)

  • Opschonen van gegevens.
  • Pijpleidingen.
  • Transformer les valeurs numériques, catégoriques, binaires et texte.
  • Création de nouvelles features.
  • Réduction de dimensions.
  • Vectorisation.
Praktisch werk
Bereid gegevens voor op analyse.

6
ML-levenscyclus met MLflow

  • Levenscyclus van een machine-leerproject.
  • Presentatie van het MLflow open source platform.
  • De belangrijkste onderdelen van MLflow: Volgen, Modellen en Projecten.
  • Parameters, metriek, tags en artefacten.
Praktisch werk
Een machine-learningproject maken en gebruiken.

7
Machinaal leren

  • MLlib, Spark's machine learning bibliotheek en de beschikbare algoritmes.
  • Een dataset opsplitsen.
  • Configureer een model en voer het uit.
  • Interpretatie en validatie van leerresultaten.
  • Inleiding tot Spark Streaming.
Praktisch werk
Machinaal leren implementeren.

8
Praktijkvoorbeelden

  • Doe aanbevelingen.
  • Verkoopvoorspellingen maken.
  • Semantische analyse.
  • Computer vision met Spark en PyTorch.
  • Analyse temps réel avec Spark et Kafka.
Casestudy
Voer de verschillende voorgestelde casestudies uit.


Data en plaats
Selecteer uw locatie of kies voor de les op afstand en kies vervolgens uw datum.
Klas op afstand

Dernières places
Date garantie en présentiel ou à distance
Session garantie

KLAS OP AFSTAND
2026 : 23 maa., 18 mei, 28 sep.

PARIS LA DÉFENSE
2026 : 23 maa., 18 mei, 28 sep.