Condividi tramite


Eseguire il training di modelli spark ML in Databricks Connect con pyspark.ml.connect

Importante

Questa funzionalità è disponibile in anteprima pubblica.

Questo articolo fornisce un esempio che illustra come usare il modulo per eseguire il training distribuito per eseguire il pyspark.ml.connect training dei modelli spark ML ed eseguire l’inferenza del modello in Databricks Connect.

Cos’è pyspark.ml.connect?

Spark 3.5 introduce pyspark.ml.connect che è progettato per supportare la modalità di connessione Spark e Databricks Connect. Altre informazioni su Databricks Connect.

Il pyspark.ml.connect modulo è costituito da algoritmi e utilità di apprendimento comuni, tra cui classificazione, trasformatori di funzionalità, pipeline di Machine Learning e convalida incrociata. Questo modulo fornisce interfacce simili al pyspark.ml legacy, ma il pyspark.ml.connect modulo contiene attualmente solo un subset degli algoritmi in pyspark.ml. Di seguito sono elencati gli algoritmi supportati:

  • Algoritmi di classificazione: pyspark.ml.connect.classification.LogisticRegression
  • Trasformatori di funzionalità: pyspark.ml.connect.feature.MaxAbsScaler e pyspark.ml.connect.feature.StandardScaler
  • Analizzatore: pyspark.ml.connect.RegressionEvaluator, pyspark.ml.connect.BinaryClassificationEvaluator e MulticlassClassificationEvaluator
  • Pipeline: pyspark.ml.connect.pipeline.Pipeline
  • Ottimizzazione del modello: pyspark.ml.connect.tuning.CrossValidator

Requisiti

Notebook di esempio

Il notebook seguente illustra come usare Distributed ML in Databricks Connect:

Machine Learning distribuito in Databricks Connect

Get portatile

Per informazioni di riferimento su API in pyspark.ml.connect, Databricks consiglia la documentazione di riferimento su API per Apache Spark