Condividi tramite


Informazioni di riferimento API Python AutoML

Questo articolo descrive l'API Python AutoML, che fornisce metodi per avviare le esecuzioni autoML, regressione e classificazione. Ogni chiamata di funzione esegue il training di un set di modelli e genera un notebook di valutazione per ogni modello.

Per altre informazioni su AutoML, inclusa un'opzione di interfaccia utente con poco codice, vedere Che cos'è AutoML?.

Classificazione

Il metodo databricks.automl.classify configura un'esecuzione AutoML per eseguire il training di un modello di classificazione.

Nota

Il parametro max_trials è deprecato in Databricks Runtime 10.4 ML e non è supportato in Databricks Runtime 11.0 ML e versioni successive. Usare timeout_minutes per controllare la durata di un'esecuzione autoML.

databricks.automl.classify(
  dataset: Union[pyspark.sql.DataFrame, pandas.DataFrame, pyspark.pandas.DataFrame, str],
  *,
  target_col: str,
  primary_metric: str = "f1",
  data_dir: Optional[str] = None,
  experiment_dir: Optional[str] = None,                             # <DBR> 10.4 LTS ML and above
  experiment_name: Optional[str] = None,                            # <DBR> 12.1 ML and above
  exclude_cols: Optional[List[str]] = None,                         # <DBR> 10.3 ML and above
  exclude_frameworks: Optional[List[str]] = None,                   # <DBR> 10.3 ML and above
  feature_store_lookups: Optional[List[Dict]] = None,               # <DBR> 11.3 LTS ML and above
  imputers: Optional[Dict[str, Union[str, Dict[str, Any]]]] = None, # <DBR> 10.4 LTS ML and above
  pos_label: Optional[Union[int, bool, str]] = None,                 # <DBR> 11.1 ML and above
  time_col: Optional[str] = None,
  split_col: Optional[str] = None,                                  # <DBR> 15.3 ML and above
  sample_weight_col: Optional[str] = None                           # <DBR> 15.4 ML and above
  max_trials: Optional[int] = None,                                 # <DBR> 10.5 ML and below
  timeout_minutes: Optional[int] = None,
) -> AutoMLSummary

Classificare i parametri

Nome parametro Tipo Descrizione
dataset str, pandas.DataFrame, pyspark.DataFramepyspark.sql.DataFrame Nome tabella di input o DataFrame che contiene funzionalità di training e destinazione. Il nome della tabella può essere in formato "<database_name>.<table_name>" o "<schema_name>.<table_name>" per le tabelle non del catalogo Unity.
target_col str Nome della colonna per l'etichetta di destinazione.
primary_metric str Metrica usata per valutare e classificare le prestazioni del modello.

Metriche supportate per la regressione: "r2" (impostazione predefinita), "mae", "rmse", "mse"

Metriche supportate per la classificazione: "f1" (impostazione predefinita), "log_loss", "precisione", "accuratezza", "roc_auc"
data_dir str di formato dbfs:/<folder-name> Facoltativo. Percorso DBFS usato per archiviare il set di dati di training. Questo percorso è visibile sia per i nodi driver che per i nodi di lavoro.

Databricks consiglia di lasciare vuoto questo campo, in modo che AutoML possa salvare il set di dati di training come artefatto MLflow.

Se viene specificato un percorso personalizzato, il set di dati non eredita le autorizzazioni di accesso dell'esperimento AutoML.
experiment_dir str Facoltativo. Percorso della directory nell'area di lavoro per salvare i notebook e gli esperimenti generati.

Impostazione predefinita: /Users/<username>/databricks_automl/
experiment_name str Facoltativo. Nome dell'esperimento MLflow creato da AutoML.

Impostazione predefinita: il nome viene generato automaticamente.
exclude_cols List[str] Facoltativo. Elenco di colonne da ignorare durante i calcoli AutoML.

Impostazione predefinita: []
exclude_frameworks List[str] Facoltativo. Framework di algoritmi che AutoML non deve considerare durante lo sviluppo di modelli. Valori possibili: elenco vuoto o uno o più di "sklearn", "lightgbm", "xgboost".

Impostazione predefinita: [] (tutti i framework sono considerati)
feature_store_lookups List[Dict] Facoltativo. Elenco di dizionari che rappresentano le funzionalità di Feature Store per l'aumento dei dati. Le chiavi valide in ogni dizionario sono:

- table_name (str): obbligatorio. Nome della tabella delle caratteristiche.
- lookup_key (list o str): obbligatorio. Nomi di colonna da usare come chiave durante l'unione della tabella delle funzionalità con i dati passati nel parametro dataset. L'ordine dei nomi delle colonne deve corrispondere all'ordine delle chiavi primarie della tabella delle funzionalità.
- timestamp_lookup_key (str): obbligatorio se la tabella specificata è una tabella delle funzionalità della serie temporale. Nome della colonna da usare quando si esegue una ricerca temporizzato nella tabella delle funzionalità con i dati passati nel parametro dataset.

Impostazione predefinita: []
imputers Dict[str, Union[str, Dict[str, Any]]] Facoltativo. Dizionario in cui ogni chiave è un nome di colonna e ogni valore è una stringa o un dizionario che descrive la strategia di imputazione. Se specificato come stringa, il valore deve essere "mean", "median" o "most_frequent". Per imputare con un valore noto, specificare il valore come dizionario {"strategy": "constant", "fill_value": <desired value>}. È anche possibile specificare opzioni stringa come dizionari, ad esempio {"strategy": "mean"}.

Se non viene fornita alcuna strategia di imputazione per una colonna, AutoML seleziona una strategia predefinita in base al tipo di colonna e al contenuto. Se si specifica un metodo di imputazione non predefinito, AutoML non esegue il rilevamento dei tipi semantici.

Impostazione predefinita: {}
pos_label Union[int, bool, str] (Solo classificazione) Classe positiva. Ciò è utile per calcolare le metriche, ad esempio precisione e richiamo. Deve essere specificato solo per problemi di classificazione binaria.
time_col str Disponibile in Databricks Runtime 10.1 ML e versioni successive.

Facoltativo. Nome della colonna per una colonna di orario.

Se specificato, AutoML tenta di suddividere il set di dati in set di training, convalida e test cronologicamente, usando i primi punti come dati di training e i punti più recenti come set di test.

I tipi di colonna accettati sono timestamp e integer. Con Databricks Runtime 10.2 ML e versioni successive, sono supportate anche le colonne stringa.

Se il tipo di colonna è string, AutoML tenta di convertirlo in timestamp usando il rilevamento semantico. Se la conversione ha esito negativo, l'esecuzione di AutoML ha esito negativo.
split_col str Facoltativo. Nome della colonna per una colonna divisa. Disponibile solo in Databricks Runtime 15.3 ML e versioni successive per i flussi di lavoro API. Se specificato, AutoML tenta di dividere i set di training/convalida/test in base ai valori specificati dall'utente e questa colonna viene automaticamente esclusa dalle funzionalità di training.

Il tipo di colonna accettato è string. Il valore di ogni voce in questa colonna deve essere uno dei seguenti: "train", "validate" o "test".
sample_weight_col str Disponibile solo in Databricks Runtime 15.4 ML e versioni successive per la classificazione dei flussi di lavoro API.

Facoltativo. Nome della colonna nel set di dati che contiene i pesi di esempio per ogni riga. La classificazione supporta pesi di esempio per classe. Questi pesi regolano l'importanza di ogni classe durante il training del modello. Ogni campione all'interno di una classe deve avere lo stesso peso del campione e i pesi devono essere valori decimali o interi non negativi, compresi tra 0 e 10.000. Le classi con pesi di esempio più elevati sono considerate più importanti e hanno una maggiore influenza sull'algoritmo di apprendimento. Se questa colonna non viene specificata, si presuppone che tutte le classi abbiano un peso uguale.
max_trials int Facoltativo. Numero massimo di versioni di valutazione da eseguire. Questo parametro è disponibile in Databricks Runtime 10.5 ML e versioni successive, ma è deprecato a partire da Databricks Runtime 10.3 ML. In Databricks Runtime 11.0 ML e versioni successive questo parametro non è supportato.

Valore predefinito: 20

Se timeout_minutes=None, AutoML esegue il numero massimo di versioni di valutazione.
timeout_minutes int Facoltativo. Tempo massimo di attesa per il completamento delle versioni di valutazione di AutoML. I timeout più lunghi consentono a AutoML di eseguire più versioni di valutazione e identificare un modello con una maggiore precisione.

Impostazione predefinita: 120 minuti

Valore minimo: 5 minuti

Viene segnalato un errore se il timeout è troppo breve per consentire il completamento di almeno una versione di valutazione.

Regredire

Il metodo databricks.automl.regress configura un'esecuzione AutoML per eseguire il training di un modello di regressione. Questo metodo restituisce un AutoMLSummary.

Nota

Il parametro max_trials è deprecato in Databricks Runtime 10.4 ML e non è supportato in Databricks Runtime 11.0 ML e versioni successive. Usare timeout_minutes per controllare la durata di un'esecuzione autoML.

databricks.automl.regress(
  dataset: Union[pyspark.sql.DataFrame, pandas.DataFrame, pyspark.pandas.DataFrame, str],
  *,
  target_col: str,
  primary_metric: str = "r2",
  data_dir: Optional[str] = None,
  experiment_dir: Optional[str] = None,                             # <DBR> 10.4 LTS ML and above
  experiment_name: Optional[str] = None,                            # <DBR> 12.1 ML and above
  exclude_cols: Optional[List[str]] = None,                         # <DBR> 10.3 ML and above
  exclude_frameworks: Optional[List[str]] = None,                   # <DBR> 10.3 ML and above
  feature_store_lookups: Optional[List[Dict]] = None,               # <DBR> 11.3 LTS ML and above
  imputers: Optional[Dict[str, Union[str, Dict[str, Any]]]] = None, # <DBR> 10.4 LTS ML and above
  time_col: Optional[str] = None,
  split_col: Optional[str] = None,                                  # <DBR> 15.3 ML and above
  sample_weight_col: Optional[str] = None,                          # <DBR> 15.3 ML and above
  max_trials: Optional[int] = None,                                 # <DBR> 10.5 ML and below
  timeout_minutes: Optional[int] = None,
) -> AutoMLSummary

Parametri regrediti

Nome parametro Tipo Descrizione
dataset str, pandas.DataFrame, pyspark.DataFramepyspark.sql.DataFrame Nome tabella di input o DataFrame che contiene funzionalità di training e destinazione. Il nome della tabella può essere in formato "<database_name>.<table_name>" o "<schema_name>.<table_name>" per le tabelle non del catalogo Unity.
target_col str Nome della colonna per l'etichetta di destinazione.
primary_metric str Metrica usata per valutare e classificare le prestazioni del modello.

Metriche supportate per la regressione: "r2" (impostazione predefinita), "mae", "rmse", "mse"

Metriche supportate per la classificazione: "f1" (impostazione predefinita), "log_loss", "precisione", "accuratezza", "roc_auc"
data_dir str di formato dbfs:/<folder-name> Facoltativo. Percorso DBFS usato per archiviare il set di dati di training. Questo percorso è visibile sia per i nodi driver che per i nodi di lavoro.

Databricks consiglia di lasciare vuoto questo campo, in modo che AutoML possa salvare il set di dati di training come artefatto MLflow.

Se viene specificato un percorso personalizzato, il set di dati non eredita le autorizzazioni di accesso dell'esperimento AutoML.
experiment_dir str Facoltativo. Percorso della directory nell'area di lavoro per salvare i notebook e gli esperimenti generati.

Impostazione predefinita: /Users/<username>/databricks_automl/
experiment_name str Facoltativo. Nome dell'esperimento MLflow creato da AutoML.

Impostazione predefinita: il nome viene generato automaticamente.
exclude_cols List[str] Facoltativo. Elenco di colonne da ignorare durante i calcoli AutoML.

Impostazione predefinita: []
exclude_frameworks List[str] Facoltativo. Framework di algoritmi che AutoML non deve considerare durante lo sviluppo di modelli. Valori possibili: elenco vuoto o uno o più di "sklearn", "lightgbm", "xgboost".

Impostazione predefinita: [] (tutti i framework sono considerati)
feature_store_lookups List[Dict] Facoltativo. Elenco di dizionari che rappresentano le funzionalità di Feature Store per l'aumento dei dati. Le chiavi valide in ogni dizionario sono:

- table_name (str): obbligatorio. Nome della tabella delle caratteristiche.
- lookup_key (list o str): obbligatorio. Nomi di colonna da usare come chiave durante l'unione della tabella delle funzionalità con i dati passati nel parametro dataset. L'ordine dei nomi delle colonne deve corrispondere all'ordine delle chiavi primarie della tabella delle funzionalità.
- timestamp_lookup_key (str): obbligatorio se la tabella specificata è una tabella delle funzionalità della serie temporale. Nome della colonna da usare quando si esegue una ricerca temporizzato nella tabella delle funzionalità con i dati passati nel parametro dataset.

Impostazione predefinita: []
imputers Dict[str, Union[str, Dict[str, Any]]] Facoltativo. Dizionario in cui ogni chiave è un nome di colonna e ogni valore è una stringa o un dizionario che descrive la strategia di imputazione. Se specificato come stringa, il valore deve essere "mean", "median" o "most_frequent". Per imputare con un valore noto, specificare il valore come dizionario {"strategy": "constant", "fill_value": <desired value>}. È anche possibile specificare opzioni stringa come dizionari, ad esempio {"strategy": "mean"}.

Se non viene fornita alcuna strategia di imputazione per una colonna, AutoML seleziona una strategia predefinita in base al tipo di colonna e al contenuto. Se si specifica un metodo di imputazione non predefinito, AutoML non esegue il rilevamento dei tipi semantici.

Impostazione predefinita: {}
time_col str Disponibile in Databricks Runtime 10.1 ML e versioni successive.

Facoltativo. Nome della colonna per una colonna di orario.

Se specificato, AutoML tenta di suddividere il set di dati in set di training, convalida e test cronologicamente, usando i primi punti come dati di training e i punti più recenti come set di test.

I tipi di colonna accettati sono timestamp e integer. Con Databricks Runtime 10.2 ML e versioni successive, sono supportate anche le colonne stringa.

Se il tipo di colonna è string, AutoML tenta di convertirlo in timestamp usando il rilevamento semantico. Se la conversione ha esito negativo, l'esecuzione di AutoML ha esito negativo.
split_col str Facoltativo. Nome della colonna per una colonna divisa. Disponibile solo in Databricks Runtime 15.3 ML e versioni successive per i flussi di lavoro API. Se specificato, AutoML tenta di dividere i set di training/convalida/test in base ai valori specificati dall'utente e questa colonna viene automaticamente esclusa dalle funzionalità di training.

Il tipo di colonna accettato è string. Il valore di ogni voce in questa colonna deve essere uno dei seguenti: "train", "validate" o "test".
sample_weight_col str Disponibile in Databricks Runtime 15.3 ML e versioni successive per i flussi di lavoro dell'API di regressione.

Facoltativo. Nome della colonna nel set di dati che contiene i pesi di esempio per ogni riga. Questi pesi regolano l'importanza di ogni riga durante il training del modello. I pesi devono essere valori decimali o interi non negativi, compresi tra 0 e 10.000. Le righe con pesi di esempio più elevati sono considerate più importanti e hanno una maggiore influenza sull'algoritmo di apprendimento. Se questa colonna non viene specificata, si presuppone che tutte le righe abbiano un peso uguale.
max_trials int Facoltativo. Numero massimo di versioni di valutazione da eseguire. Questo parametro è disponibile in Databricks Runtime 10.5 ML e versioni successive, ma è deprecato a partire da Databricks Runtime 10.3 ML. In Databricks Runtime 11.0 ML e versioni successive questo parametro non è supportato.

Valore predefinito: 20

Se timeout_minutes=None, AutoML esegue il numero massimo di versioni di valutazione.
timeout_minutes int Facoltativo. Tempo massimo di attesa per il completamento delle versioni di valutazione di AutoML. I timeout più lunghi consentono a AutoML di eseguire più versioni di valutazione e identificare un modello con una maggiore precisione.

Impostazione predefinita: 120 minuti

Valore minimo: 5 minuti

Viene segnalato un errore se il timeout è troppo breve per consentire il completamento di almeno una versione di valutazione.

Forecast

Il metodo databricks.automl.forecast configura un'esecuzione AutoML per il training di un modello di previsione. Questo metodo restituisce un AutoMLSummary. Per usare Auto-ARIMA, la serie temporale deve avere una frequenza regolare, ovvero l'intervallo tra due punti deve essere lo stesso per tutta la serie temporale. La frequenza deve corrispondere all'unità di frequenza specificata nella chiamata API. AutoML gestisce i passaggi temporali mancanti compilando tali valori con il valore precedente.

databricks.automl.forecast(
  dataset: Union[pyspark.sql.DataFrame, pandas.DataFrame, pyspark.pandas.DataFrame, str],
  *,
  target_col: str,
  time_col: str,
  primary_metric: str = "smape",
  country_code: str = "US",                                         # <DBR> 12.0 ML and above
  frequency: str = "D",
  horizon: int = 1,
  data_dir: Optional[str] = None,
  experiment_dir: Optional[str] = None,
  experiment_name: Optional[str] = None,                            # <DBR> 12.1 ML and above
  exclude_frameworks: Optional[List[str]] = None,
  feature_store_lookups: Optional[List[Dict]] = None,               # <DBR> 12.2 LTS ML and above
  identity_col: Optional[Union[str, List[str]]] = None,
  sample_weight_col: Optional[str] = None,                          # <DBR> 16.0 ML and above
  output_database: Optional[str] = None,                            # <DBR> 10.5 ML and above
  timeout_minutes: Optional[int] = None,
) -> AutoMLSummary

Parametri di previsione

Nome parametro Tipo Descrizione
dataset str, pandas.DataFrame, pyspark.DataFramepyspark.sql.DataFrame Nome tabella di input o DataFrame che contiene funzionalità di training e destinazione.

Il nome della tabella può essere in formato ".." o “.” per tabelle non del catalogo Unity
target_col str Nome della colonna per l'etichetta di destinazione.
time_col str Nome della colonna temporale per la previsione.
primary_metric str Metrica usata per valutare e classificare le prestazioni del modello.

Metriche supportate: "smape" (impostazione predefinita), "mse", "rmse", "mae" o "mdape".
country_code str Disponibile in Databricks Runtime 12.0 ML e versioni successive. Supportato solo dal modello di previsione Prophet.

Facoltativo. Codice paese a due lettere che indica le festività del paese in cui deve essere usato il modello di previsione. Per ignorare le festività, impostare questo parametro su una stringa vuota ("").

Paesi supportati.

Impostazione predefinita: Stati Uniti (Stati Uniti festività).
frequency str Frequenza della serie temporale per la previsione. Questo è il periodo con cui si prevede che si verifichino eventi. L'impostazione predefinita è "D" o dati giornalieri. Assicurarsi di modificare l'impostazione se i dati hanno una frequenza diversa.

Valori possibili:

"W" (settimane)

"D" / "days" / "day"

"hours" / "hour" / "hr" / "h"

"m" / "minute" / "min" / "minutes" / "T"

"S" / "seconds" / "sec" / "second"

Quanto segue è disponibile solo in Databricks Runtime 12.0 ML e versioni successive:

“M” / “month” / “months”

“Q” / “quarter” / “quarters”

“Y” / “year” / “years”

Impostazione predefinita: “D”
horizon int Numero di periodi nel futuro per i quali devono essere restituite le previsioni.

Le unità sono espresse in unità di frequenza delle serie temporali.

Predefinito: 1
data_dir str di formato dbfs:/<folder-name> Facoltativo. Percorso DBFS usato per archiviare il set di dati di training. Questo percorso è visibile sia per i nodi driver che per i nodi di lavoro.

Databricks consiglia di lasciare vuoto questo campo, in modo che AutoML possa salvare il set di dati di training come artefatto MLflow.

Se viene specificato un percorso personalizzato, il set di dati non eredita le autorizzazioni di accesso dell'esperimento AutoML.
experiment_dir str Facoltativo. Percorso della directory nell'area di lavoro per salvare i notebook e gli esperimenti generati.

Impostazione predefinita: /Users/<username>/databricks_automl/
experiment_name str Facoltativo. Nome dell'esperimento MLflow creato da AutoML.

Impostazione predefinita: il nome viene generato automaticamente.
exclude_frameworks List[str] Facoltativo. Framework di algoritmi che AutoML non deve considerare durante lo sviluppo di modelli. Valori possibili: elenco vuoto o uno o più di "profeta", "arima".

Impostazione predefinita: [] (tutti i framework sono considerati)
feature_store_lookups List[Dict] Facoltativo. Elenco di dizionari che rappresentano le funzionalità di Feature Store per l'aumento dei dati covariati. Le chiavi valide in ogni dizionario sono:

- table_name (str): obbligatorio. Nome della tabella delle caratteristiche.
- lookup_key (list o str): obbligatorio. Nomi di colonna da usare come chiave durante l'unione della tabella delle funzionalità con i dati passati nel parametro dataset. L'ordine dei nomi delle colonne deve corrispondere all'ordine delle chiavi primarie della tabella delle funzionalità.
- timestamp_lookup_key (str): obbligatorio se la tabella specificata è una tabella delle funzionalità della serie temporale. Nome della colonna da usare quando si esegue una ricerca temporizzato nella tabella delle funzionalità con i dati passati nel parametro dataset.

Impostazione predefinita: []
identity_col Union[str, list] Facoltativo. Colonne che identificano la serie temporale per la previsione di più serie. AutoML raggruppa in base a queste colonne e alla colonna temporale per la previsione.
sample_weight_col str Disponibile in Databricks Runtime 16.0 ML e versioni successive. Solo per flussi di lavoro di serie multi-time.

Facoltativo. Specifica la colonna nel set di dati che contiene pesi di esempio. Questi pesi indicano l'importanza relativa di ogni serie temporale durante il training e la valutazione del modello.

Le serie temporali con pesi più elevati hanno un'influenza maggiore sul modello. Se non specificato, tutte le serie temporali vengono trattate con peso uguale.

Tutte le righe appartenenti alla stessa serie temporale devono avere lo stesso peso.

I pesi devono essere valori non negativi, decimali o interi, e devono essere compresi tra 0 e 10.000.
output_database str Facoltativo. Se specificato, AutoML salva le stime del modello migliore in una nuova tabella nel database specificato.

Impostazione predefinita: le stime non vengono salvate.
timeout_minutes int Facoltativo. Tempo massimo di attesa per il completamento delle versioni di valutazione di AutoML. I timeout più lunghi consentono a AutoML di eseguire più versioni di valutazione e identificare un modello con una maggiore precisione.

Impostazione predefinita: 120 minuti

Valore minimo: 5 minuti

Viene segnalato un errore se il timeout è troppo breve per consentire il completamento di almeno una versione di valutazione.

Importa notebook

Il metodo databricks.automl.import_notebook importa un notebook salvato come artefatto MLflow. Questo metodo restituisce un ImportNotebookResult.

databricks.automl.import_notebook(
  artifact_uri: str,
  path: str,
  overwrite: bool = False
) -> ImportNotebookResult:
Parametri Tipo Descrizione
artifact_uri str URI dell'artefatto MLflow che contiene il notebook di valutazione.
path str Percorso nell'area di lavoro di Databricks in cui deve essere importato il notebook. Questo deve essere un percorso assoluto. Se la directory non esiste, viene creata.
overwrite bool Se sovrascrivere il notebook se esiste già. È False per impostazione predefinita.

Esempio di importazione del notebook

summary = databricks.automl.classify(...)
result = databricks.automl.import_notebook(summary.trials[5].artifact_uri, "/Users/you@yourcompany.com/path/to/directory")
print(result.path)
print(result.url)

AutoMLSummary

Oggetto riepilogo per un'esecuzione AutoML che descrive le metriche, i parametri e altri dettagli per ognuna delle versioni di valutazione. Questo oggetto viene usato anche per caricare il modello sottoposto a training da una versione di valutazione specifica.

Proprietà Type Descrizione
experiment mlflow.entities.Experiment Esperimento MLflow usato per registrare le versioni di valutazione.
trials List[TrialInfo] Elenco di oggetti TrialInfo contenenti informazioni su tutte le versioni di valutazione eseguite.
best_trial TrialInfo Oggetto TrialInfo contenente informazioni sulla versione di valutazione che ha generato il punteggio ponderato migliore per la metrica primaria.
metric_distribution str Distribuzione dei punteggi ponderati per la metrica primaria in tutte le versioni di valutazione.
output_table_name str Usato solo con le previsioni e solo se viene fornito output_database.

Nome della tabella in output_database contenente le previsioni del modello.

TrialInfo

Oggetto riepilogo per ogni singola versione di valutazione.

Proprietà Type Descrizione
notebook_path Optional[str] Percorso del notebook generato per questa versione di valutazione nell'area di lavoro.

Per la classificazione e la regressione, questo valore viene impostato solo per la versione di valutazione migliore, mentre tutti gli altri test hanno il valore impostato su None.

Per la previsione, questo valore è presente per tutte le versioni di valutazione.
notebook_url Optional[str] URL del notebook generato per questa versione di valutazione.

Per la classificazione e la regressione, questo valore viene impostato solo per la versione di valutazione migliore, mentre tutti gli altri test hanno il valore impostato su None.

Per la previsione, questo valore è presente per tutte le versioni di valutazione.
artifact_uri Optional[str] URI dell'artefatto MLflow per il notebook generato.
mlflow_run_id str ID di esecuzione MLflow associato a questa esecuzione di valutazione.
metrics Dict[str, float] Le metriche registrate in MLflow per questa versione di valutazione.
params Dict[str, str] I parametri registrati in MLflow usati per questa versione di valutazione.
model_path str URL dell'artefatto MLflow del modello sottoposto a training in questa versione di valutazione.
model_description str Breve descrizione del modello e degli iperparametri usati per il training di questo modello.
duration str Durata del training in minuti.
preprocessors str Descrizione dei preprocessori eseguiti prima del training del modello.
evaluation_metric_score float Punteggio della metrica primaria, valutato per il set di dati di convalida.

TrialInfo dispone di un metodo per caricare il modello generato per la versione di valutazione.

metodo Descrizione
load_model() Caricare il modello generato in questa versione di valutazione, registrato come artefatto MLflow.

ImportNotebookResult

Proprietà Type Descrizione
path str Percorso nell'area di lavoro di Databricks in cui deve essere importato il notebook. Questo deve essere un percorso assoluto. Se la directory non esiste, viene creata.
url str URI dell'artefatto MLflow che contiene il notebook di valutazione.