Qu’est-ce que la data science ?
- Les fondamentaux : big data, data lake, data mining, intelligence artificielle, machine et deep learning, texte mining.
- Les nouveaux défis : l'émergence et la multiplication de nouvelles sources de données.
- Hétérogénéités des données, flux temps réel et explosion des volumes de données, à prendre en compte.
- L’écosystème technologique du big data.
- Démystifier le monde de la data science : analyse descriptive, prédictive et prescriptive.
- Le métier, les outils et les méthodes du data scientist.
- Introduction au machine learning, à l’analyse supervisée et à l’analyse non supervisée.
- Notions de sur et sous-apprentissage.
Démonstration
Cas d’usages de la data science dans une chaîne de valeur métier (comportement client, offre produit…).
Les méthodes et les modèles de la data science
- Collecte, préparation et exploration des données.
- L’importance de la démarche de la qualité des données (nettoyer, transformer, enrichir).
- Définition des métriques.
- Les méthodes statistiques de bases.
- Les principales classes d’algorithmes supervisés : arbres de décision, K plus proches voisins, régression, Naive Bayes.
- Les principales classes d’algorithmes non-supervisés : clustering, ACP, CAH, réseaux de neurones.
- Le text mining et les autres familles d’algorithmes.
Travaux pratiques
Analyses simples avec R pour illustrer les techniques de l’analyse supervisée (régression et classification) et de l’analyse non-supervisée (clustering, segmentation et détection d'anomalies).
Représentation graphique et restitution des données
- Les langages de l’analyse statistique R et Python,.
- Leurs environnements de développement (R-Studio, Anaconda, PyCharm) et leurs librairies (Panda, machine learning).
- Les outils de DataViz (Power BI, Qlik, tableau…).
- Modélisation des algorithmes : représentation des processus, des flux, des contrôles et des conditions.
- Modélisation des algorithmes : les outils (Orange, Power BI).
- Communiquer les résultats par le data storytelling : organiser le visuel (diagrammes, classements, cartographies).
- Communiquer les résultats par le data storytelling : restituer la signification des résultats.
Travaux pratiques
Exercices d’exploration graphique des données, analyse de la position et de l’étendue des données (nuages, histogrammes…).
Modélisation d’un problème de data science
- Récapitulatif de la démarche.
- Cas métier 1 : la relation client dans l’assurance :
- Cibler les campagnes marketing. Comprendre les causes d’attrition client. Quels produits pour quels clients ?
- Cas métier 2 : la détection des fraudes :
- Comparer la recherche par statistiques classiques et data mining.
- Détection par méthode supervisée. Détection par méthode non supervisée.
Etude de cas
Mise en application pratique de la méthode au storytelling sur des cas métier.