Partager via


Guide du machine learning pour les Clusters Big Data SQL Server

S’applique à : SQL Server 2019 (15.x)

Cet article explique comment utiliser Clusters Big Data SQL Server dans les scénarios de machine learning.

Important

Le module complémentaire Clusters Big Data Microsoft SQL Server 2019 sera mis hors service. La prise en charge de la plateforme Clusters Big Data Microsoft SQL Server 2019 se terminera le 28 février 2025. Tous les utilisateurs existants de SQL Server 2019 avec Software Assurance seront entièrement pris en charge sur la plateforme, et le logiciel continuera à être maintenu par les mises à jour cumulatives SQL Server jusqu’à ce moment-là. Pour plus d’informations, consultez le billet de blog d’annonce et les Options Big Data sur la plateforme Microsoft SQL Server.

Présentation du machine learning dans les Clusters Big Data SQL Server

Les Clusters Big Data SQL Server permettent des scénarios et des solutions de machine learning qui utilisent différentes piles technologiques : SQL Server Machine Learning Services et Apache Spark ML.

Les Clusters Big Data SQL Server offrent des fonctionnalités de machine learning au sein du moteur SQL Server, en utilisant la pile technologique établie de SQL Server Machine Learning Services, ce qui permet d’obtenir de hautes performances, des scénarios d’inférence de machine learning dans la base de données et de scoring.

Pour les scénarios de machine learning basés sur le Big Data, l’utilisation de HDFS pour l’hébergement de Big Data et des capacités d’Apache Spark ML est plus rentable, scalable et puissant.

Scénarios de machine learning

Les fonctionnalités de machine learning permettent différentes applications et solutions, par exemple : détection des fraudes, prévisions, évolution et tâches générales de classification et de régression. Toutefois, encore faut-il utiliser la meilleure technologie pour chaque scénario.

Aspect Services de Machine Learning SQL Server Apache Spark ML
Placement des données Utilise la localité des données tabulaires sur SQL Server. Couche Données Premium. Niveau de données Big Data scalable avec HDFS : à la fois données structurées, semi-structurées et non structurées.
Idéal pour Scénarios d’inférence à faible latence et de scoring 1. Entraînement par lots distribué et scoring de modèles Machine Learning sur le Big Data
2. Récepteurs ETL ainsi que préparation des données à grande échelle et caractérisation pour le ML
Flux Tableaux de bord, rapports et applications décisionnels alimentés par ML. Latence faible nécessaire Les données scorées par lots peuvent être promues sur SQL Server pour les scénarios qui utilisent le ML
Latence Latence faible nécessaire Latence plus élevée acceptable
En savoir plus Exécuter des scripts Python et R avec Machine Learning Services sur des clusters Big Data SQL Server Présentation de Spark Machine Learning sur les Clusters Big Data SQL Server

Étapes suivantes

Pour plus d’informations, consultez Présentation des Clusters Big Data SQL Server.