Opleiding : Tekst mining in de praktijk

Praktijkcursus - 3d - 21u00 - Ref. MMD
Prijs : 2010 € V.B.

Tekst mining in de praktijk




Datamining beperkt tot tekstuele gegevens - text mining - wordt steeds vaker gebruikt in bedrijven. Het kan bijvoorbeeld worden gebruikt om producten te classificeren op basis van opmerkingen van consumenten. Je zult algoritmen en tools voor text mining toepassen op paradigmatische voorbeelden.


INTER
INTRA
OP MAAT

Praktijkcursus ter plaatse of via klasverband op afstand
Disponible en anglais, à la demande

Ref. MMD
  3d - 21u00
2010 € V.B.




Datamining beperkt tot tekstuele gegevens - text mining - wordt steeds vaker gebruikt in bedrijven. Het kan bijvoorbeeld worden gebruikt om producten te classificeren op basis van opmerkingen van consumenten. Je zult algoritmen en tools voor text mining toepassen op paradigmatische voorbeelden.


Pedagogische doelstellingen
Aan het einde van de training is de deelnemer in staat om:
Tekstuele statistische methoden begrijpen
Kenmerkenextractie implementeren uit tekstuele gegevens
Selecties en rankings maken van grote hoeveelheden tekstuele gegevens
Een classificatiealgoritme kiezen
De voorspellende prestatie van een algoritme evalueren

Doelgroep
AI-engineers/projectmanagers, AI-consultants en iedereen die tekst mining voor machine learning en deep learning wil ontdekken.

Voorafgaande vereisten
Goede kennis van statistiek. Goede kennis van machine learning en deep learning. Vereiste ervaring.

Opleidingsprogramma

1
Traditionele benaderingen van text mining

  • API's voor het ophalen van tekstuele gegevens.
  • Tekstuele gegevens voorbereiden volgens het probleem.
  • Ophalen en verkennen van het corpus van teksten.
  • Accenten en speciale tekens verwijderen.
  • Stemming, lemmatisering en verwijdering van verbindingswoorden.
  • Alles samenbrengen om gegevens op te schonen en te standaardiseren.
Praktisch werk
Documenten zoeken, voorbereiden, transformeren en vectoriseren van gegevens in DataFrame.

2
Feature engineering voor tekstrepresentatie

  • De syntaxis en structuur van de tekst begrijpen.
  • De modellen Bag of Words en Bag of N-Grams.
  • Het TF-IDF model, Transformer en Vectorizer.
  • Het Word2Vec model en implementatie met Gensim.
  • Het GloVe-model.
  • Het FastText-model.
Praktisch werk
Bewerkingen opzetten om kenmerken uit tekstgegevens te extraheren om classificaties uit te voeren.

3
Tekstgelijkenis en classificatie zonder toezicht

  • De essentiële concepten van gelijkenis.
  • Term similariteitsanalyse: Hamming, Manhattan, Euclidische en Levenshtein afstanden.
  • Gelijksoortigheidsanalyse van documenten.
  • Okapi BM25 en de ranglijst.
  • Classificatiealgoritmen zonder toezicht.
Praktisch werk
Bouw een aanbevelingssysteem voor vergelijkbare producten op basis van de beschrijving en inhoud van de producten die je hebt gekozen.

4
Gesuperviseerde tekstclassificatie

  • Gegevens voorbewerken en standaardiseren.
  • Classificatiemodellen.
  • Multinomiale Naive Bayes.
  • Logistische regressie. Ondersteunende vector machines.
  • Random Forest. Gradient Boosting Machines.
  • Evaluatie van classificatiemodellen.
Praktisch werk
Implementatie van gecontroleerde classificaties op verschillende datasets.

5
Natuurlijke taalverwerking en diep leren

  • NLP-bibliotheken: NLTK, TextBlob, SpaCy, Gensim, Pattern, Stanford CoreNLP.
  • Deep learning-bibliotheken: Theano, TensorFlow, Keras.
  • Natuurlijke taalverwerking en terugkerende neurale netwerken.
  • RNN en het lange-termijngeheugen. Bidirectionele RNN-modellen.
  • Sequentie-naar-sequentie modellen.
  • Vragen en antwoorden met RNN-modellen.
Praktisch werk
Bouw een RNN om een nieuwe tekst te genereren.


Data en plaats
Selecteer uw locatie of kies voor de les op afstand en kies vervolgens uw datum.
Klas op afstand

Dernières places
Date garantie en présentiel ou à distance
Session garantie

KLAS OP AFSTAND
2026 : 30 maa., 1 juni, 12 okt.

PARIS LA DÉFENSE
2026 : 30 maa., 1 juni, 12 okt.