Introduction
De toute évidence, le rôle d’un scientifique de données implique principalement l’exploration et l’analyse des données. Bien que le résultat final de l’analyse des données puisse être un rapport ou un modèle Machine Learning, les scientifiques des données commencent leur travail avec des données. Python est le langage de programmation le plus populaire que les scientifiques des données utilisent pour traiter les données.
Après des décennies de développement open source, Python offre des fonctionnalités complètes ainsi que de puissantes bibliothèques statistiques et numériques :
- NumPy et Pandas simplifient l’analyse et la manipulation de données.
- Matplotlib fournit des visualisations des données attrayantes.
- Scikit-learn offre une analyse de données prédictive simple et efficace.
- TensorFlow et PyTorch proposent des fonctionnalités de Machine Learning et de Deep Learning.
Exemple de scénario
En règle générale, un projet d’analyse de données est conçu pour établir des insights dans le cadre d’un scénario particulier ou pour tester une hypothèse.
Par exemple, supposons qu’un professeur d’université collecte des données sur ses étudiants : Le nombre de cours auxquels ils assistent, les heures passées à étudier et la note finale obtenue à l’examen de fin de trimestre. Le professeur pourrait analyser les données pour déterminer s’il existe une relation entre le nombre d’heures d’études qu’un étudiant entreprend et la note finale qu’il obtient. Les données lui permettent par exemple de tester l’hypothèse Selon laquelle seuls les étudiants qui étudient pendant un nombre minimum d’heures peuvent s’attendre à recevoir une note de passage.
Qu’allons-nous faire ?
Dans ce module de formation, nous allons découvrir et analyser les données des notes d’une classe universitaire fictive du point de vue d’un professeur. Nous allons utiliser des notebooks Jupyter et plusieurs outils et bibliothèques Python pour nettoyer le jeu de données, appliquer des techniques statistiques pour tester plusieurs hypothèses sur les données et visualiser les données pour déterminer les relations entre les variables.