1
Histoire du machine learning et contexte du big data
- Replacer à leur échelle les concepts d'intelligence artificielle, apprentissage automatique (machine learning)...
- Le lien avec les mathématiques, les statistiques (inférentielles), le data mining et la data science.
- Passer de l'analyse descriptive à l'analyse prédictive puis prescriptive.
- Les applications du Machine Learning (moteurs de recherche, détection des spams, lecture des chèques).
- La typologie des algorithmes de Dominique Cardon.
- La communauté data science et les challenges Kaggle (ex. de Netflix).
Etude de cas
Études d'applications concrètes du machine learning (moteurs de recherche, détection des spams, lecture des chèques).
2
Les données à disposition : collecte et préparation
- Données structurées, semi-structurées et non structurées.
- Nature statistique des données (qualitatives ou quantitatives).
- Objets connectés (IoT) et streaming.
- Opportunités et limites de l'open data.
- Identification des corrélations, problème de la multicolinéarité.
- Réduction des dimensions par Analyse des composantes principales.
- Détection et correction des valeurs aberrantes.
- Les ETL (Extract Transform Load).
- Le web scraping.
Démonstration
Démonstration d'un ETL (Extract Transform Load). Recueil de données web.
3
Les outils du marché pour le traitement de la donnée et le machine learning
- Les logiciels traditionnels (SAS, SPSS, Stata...) et leur ouverture à l'open source.
- Choisir entre les deux leaders open source : Python et R.
- Plateformes cloud (Azure, AWS, Google Cloud Platform) et solutions SaaS (IBM Watson, Dataïku).
- Nouveaux postes en entreprises : data engineer, data scientist, data analyst, etc.
- Associer les bonnes compétences à ces différents outils.
- Les API en ligne (IBM Watson, Microsoft Cortana Intelligence...).
- Les chatbots (agents conversationnels).
Démonstration
Démonstration d'un chatbot (agent conversationnel) et d'Azure Machine Learning.
4
Les différents types d'apprentissage en machine learning
- Apprentissage supervisé : répéter un exemple.
- Apprentissage non supervisé : découvrir les données.
- Online (machine) learning par opposition aux techniques batch.
- Reinforcement learning : optimisation d'une récompense.
- Autres types d'apprentissage (par transfert, séquentiel, actif...).
- Illustrations (moteurs de recommandation...).
Démonstration
Démonstrations sur les différents types d'apprentissage machine learning possibles.
5
Les algorithmes du machine learning
- Régression linéaire simple et multiple. Limites des approches linéaires.
- Régression polynomiale (LASSO). Séries temporelles.
- Régression logistique et applications en scoring.
- Classification hiérarchique et non hiérarchique (KMeans).
- Classification par arbres de décision ou approche Naïve Bayes.
- Ramdom Forest (développement des arbres de décision).
- Gradiant Boosting. Réseaux de neurones. Machine à support de vecteurs.
- Deep learning : exemples et raisons du succès actuel.
- Text mining : analyse des corpus de données textuelles.
Démonstration
Démonstration des différents algorithmes de base sous R ou Python.
6
Procédure d'entraînement et d'évaluation des algorithmes
- Séparation du jeu de données : entraînement, test et validation.
- Techniques de bootstrap (bagging).
- Exemple de la validation croisée.
- Définition d'une métrique de performance.
- Descente de gradient stochastique (minimisation de la métrique).
- Courbes ROC et de lift pour évaluer et comparer les algorithmes.
- Matrice de confusion : faux positifs et faux négatifs.
Démonstration
Démonstration du choix du meilleur algorithme.
7
Mise en production d'un algorithme de machine learning
- Description d'une plateforme big data.
- Principe de fonctionnement des API.
- Du développement à la mise en production.
- Stratégie de maintenance corrective et évolutive.
- Évaluation du coût de fonctionnement en production.
Démonstration
Démonstration d'API de géolocalisation et d'analyse de sentiments.
8
Aspects éthiques et juridiques liés à l'intelligence artificielle
- Missions de la CNIL et évolutions à venir.
- Question du droit d'accès aux données personnelles.
- Question de la propriété intellectuelle des algorithmes.
- Nouveaux rôles dans l'entreprise : chief data officer et data protection officer.
- Question de l'impartialité des algorithmes.
- Attention au biais de confirmation.
- Les secteurs et les métiers touchés par l'automatisation.
Réflexion collective
Réflexion en commun pour identifier les clés de réussite.