Démarche et modélisation d'une analyse statistique
- Statistique descriptive.
- Phase d'apprentissage.
- Statistique prédictive pour estimer et anticiper.
- Modélisation statistique d'un phénomène.
Introduction à la modélisation des données
- Introduction au langage Python.
- Introduction au logiciel Jupiter Notebook.
- Les étapes de construction d'un modèle.
- Les algorithmes supervisés et non supervisés.
- Le choix entre la régression et la classification.
Travaux pratiques
Installation de Python 3, d'Anaconda et de Jupiter Notebook.
Introduction au machine learning
- Le big data et le machine learning.
- Les algorithmes d'apprentissage supervisés, non supervisés et par renforcement.
- Les étapes de construction d'un modèle prédictif.
- Détecter les valeurs aberrantes et traiter les données manquantes.
- Comment choisir l'algorithme et les variables de l'algorithme ?
Démonstration
Prise en main de l'environnement Spark avec Python à l'aide de Jupyter Notebook. Visualiser plusieurs exemples de modèles fournis.
Introduction aux réseaux de neurones artificiels
- Du biologique à l’artificiel.
- Entraîner un PMC (perceptron multicouche) avec une API TensorFlow de haut niveau.
- Entraîner un PMC (perceptron multicouche) avec TensorFlow de base.
- Régler précisément les hyperparamètres d’un réseau de neurones.
Les approches traditionnelles en text mining
- Les API pour récupérer des données textuelles.
- La préparation des données textuelles en fonction de la problématique.
- La récupération et l'exploration du corpus de textes.
- La suppression des caractères accentués et spéciaux.
- Stemming, lemmatisation et suppression des mots de liaison.
- Tout rassembler pour nettoyer et normaliser les données.
Travaux pratiques
La recherche des documents, la préparation, la transformation et la vectorisation des données en DataFrame.