Former des modèles Spark ML sur Databricks Connect avec pyspark.ml.connect
Important
Cette fonctionnalité est disponible en préversion publique.
Cet article fournit un exemple qui montre comment utiliser le module pyspark.ml.connect
pour effectuer une formation distribuée pour former des modèles Spark ML et exécuter l’inférence de modèle sur Databricks Connect.
Qu'est-ce que pyspark.ml.connect
?
Spark 3.5 introduit pyspark.ml.connect
qui est conçu pour prendre en charge le mode de connexion Spark et Databricks Connect. En savoir plus sur Databricks Connect.
Le module pyspark.ml.connect
se compose d’algorithmes et d’utilitaires de formation courants, notamment la classification, les transformateurs de fonctionnalités, les pipelines ML et la validation croisée. Ce module fournit des interfaces semblables au module pyspark.ml
hérité, mais le module pyspark.ml.connect
contient actuellement uniquement un sous-ensemble des algorithmes danspyspark.ml
. Les algorithmes pris en charge sont répertoriés ci-dessous :
- Algorithme de classification :
pyspark.ml.connect.classification.LogisticRegression
- Transformateurs de fonctionnalités :
pyspark.ml.connect.feature.MaxAbsScaler
etpyspark.ml.connect.feature.StandardScaler
- Évaluateur :
pyspark.ml.connect.RegressionEvaluator
,pyspark.ml.connect.BinaryClassificationEvaluator
etMulticlassClassificationEvaluator
- Pipeline :
pyspark.ml.connect.pipeline.Pipeline
- Réglage du modèle :
pyspark.ml.connect.tuning.CrossValidator
Spécifications
- Configurez Databricks Connect sur vos clusters. Consultez Configuration du cluster pour Databricks Connect.
- Databricks Runtime 14.0 ML ou version ultérieure installée.
- Mode d’accès au cluster
Assigned
.
Exemple de bloc-notes
Le notebook suivant montre comment utiliser le ML distribué sur Databricks Connect :
ML distribué sur Databricks Connect
Pour obtenir des informations de référence sur les API dans pyspark.ml.connect
, Databricks recommande la référence de l’API Apache Spark