Partager via


Effectuer l’apprentissage de modèles Machine Learning

Apache Spark dans Microsoft Fabric permet l’apprentissage automatique avec Big Data. Avec Apache Spark, vous pouvez obtenir des insights précieux à partir de grandes quantités de données structurées, non structurées et en évolution rapide. Vous disposez de plusieurs options disponibles de bibliothèque open source pour former des modèles d’apprentissage automatique avec Apache Spark dans Microsoft Fabric : Apache Spark MLlib, SynapseML et d’autres.

Apache SparkML et MLlib

Apache Spark dans Microsoft Fabric fournit un cadre unifié, open source et parallèle de traitement des données. Ce cadre prend en charge le traitement en mémoire qui améliore l’analytique big data. Le moteur de traitement Spark est élaboré pour permettre des analyses rapides, simples d’utilisation et sophistiquées. De par ses capacités de calcul distribué en mémoire, Spark constitue le choix idéal pour les algorithmes itératifs utilisés par l’apprentissage automatique et les calculs de graphiques.

Les bibliothèques d’apprentissage automatique évolutives MLlib et SparkML offrent des fonctionnalités de modélisation d’algorithme à cet environnement distribué. MLib contient l’API d’origine qui vient au-dessus des RDD. SparkML est un package plus récent. Il fournit une API de niveau supérieur reposant sur des trames de données pour construire des pipelines ML. SparkML ne prend pas en charge toutes les fonctionnalités de MLlib, mais remplace MLlib en tant que bibliothèque d’apprentissage automatique standard de Spark.

Remarque

Pour plus d’informations sur la création de modèles SparkML, consultez la ressource Entraîner des modèles avec Apache Spark MLlib.

Le runtime Microsoft Fabric pour Apache Spark comprend plusieurs packages open source populaires pour la formation de modèles d'apprentissage automatique. Ces bibliothèques fournissent du code réutilisable que vous pouvez inclure dans vos programmes ou projets. Le runtime inclut ces bibliothèques d’apprentissage automatique pertinentes, et d’autres :

  • Scikit-learn, l’une des bibliothèques les plus populaires d’apprentissage automatique à nœud unique pour les algorithmes classiques de ML. Scikit-learn prend en charge la plupart des algorithmes d’apprentissage supervisés et non supervisés et peut également être utilisée pour l’exploration et l’analyse des données.

  • XGBoost, une bibliothèque populaire d’apprentissage automatique qui contient des algorithmes optimisés pour la formation des arbres de décision et des forêts aléatoires.

  • PyTorch et Tensorflow sont de puissantes bibliothèques de deep learning en Python. Avec ces bibliothèques, vous pouvez définir le nombre d’exécuteurs sur votre pool sur zéro pour créer des modèles à machine unique. Bien que cette configuration ne prend pas en charge Apache Spark, il s’agit d’un moyen simple et économique de créer des modèles à machine unique.

SynapseML

La bibliothèque open source SynapseML (anciennement connu sous le nom de MMLSpark) simplifie la création de pipelines d'apprentissage automatique (ML) massivement évolutifs. Avec elle, l’utilisation des scientifiques des données de Spark devient plus productif car la bibliothèque accroît le taux d’expérimentation et utilise des techniques d’apprentissage automatique de pointe, notamment le Deep Learning, sur des jeux de données volumineux.

SynapseML fournit une couche au-dessus des API de bas niveau SparkML lors de la création de modèles ML évolutifs. Ces API couvrent l’indexation de chaînes, l’assembly de vecteurs de caractéristiques, le forçage de type des données en dispositions appropriées pour les algorithmes d’apprentissage automatique, et bien plus encore. La bibliothèque SynapseML simplifie ces tâches et d'autres tâches courantes pour la création de modèles dans PySpark.

Cet article fournit une vue d'ensemble des différentes options disponibles pour former des modèles d'apprentissage automatique dans Apache Spark dans Microsoft Fabric. Pour plus d’informations sur l’entraînement des modèles, consultez ces ressources :