Eseguire il training di modelli spark ML in Databricks Connect con pyspark.ml.connect
Importante
Questa funzionalità è disponibile in anteprima pubblica.
Questo articolo fornisce un esempio che illustra come usare il modulo per eseguire il training distribuito per eseguire il pyspark.ml.connect
training dei modelli spark ML ed eseguire l’inferenza del modello in Databricks Connect.
Cos’è pyspark.ml.connect
?
Spark 3.5 introduce pyspark.ml.connect
che è progettato per supportare la modalità di connessione Spark e Databricks Connect. Altre informazioni su Databricks Connect.
Il pyspark.ml.connect
modulo è costituito da algoritmi e utilità di apprendimento comuni, tra cui classificazione, trasformatori di funzionalità, pipeline di Machine Learning e convalida incrociata. Questo modulo fornisce interfacce simili al pyspark.ml
legacy, ma il pyspark.ml.connect
modulo contiene attualmente solo un subset degli algoritmi in pyspark.ml
. Di seguito sono elencati gli algoritmi supportati:
- Algoritmi di classificazione:
pyspark.ml.connect.classification.LogisticRegression
- Trasformatori di funzionalità:
pyspark.ml.connect.feature.MaxAbsScaler
epyspark.ml.connect.feature.StandardScaler
- Analizzatore:
pyspark.ml.connect.RegressionEvaluator
,pyspark.ml.connect.BinaryClassificationEvaluator
eMulticlassClassificationEvaluator
- Pipeline:
pyspark.ml.connect.pipeline.Pipeline
- Ottimizzazione del modello:
pyspark.ml.connect.tuning.CrossValidator
Requisiti
- Set configura Databricks Connect nei cluster. Vedere Configurazione di calcolo per Databricks Connect.
- Installato Databricks Runtime 14.0 ML o versione successiva.
- Modalità di accesso al cluster di
Assigned
.
Notebook di esempio
Il notebook seguente illustra come usare Distributed ML in Databricks Connect:
Machine Learning distribuito in Databricks Connect
Per informazioni di riferimento su API in pyspark.ml.connect
, Databricks consiglia la documentazione di riferimento su API per Apache Spark