Informazioni di riferimento API Python AutoML
Questo articolo descrive l'API Python AutoML, che fornisce metodi per avviare le esecuzioni autoML, regressione e classificazione. Ogni chiamata di funzione esegue il training di un set di modelli e genera un notebook di valutazione per ogni modello.
Per altre informazioni su AutoML, inclusa un'opzione di interfaccia utente con poco codice, vedere Che cos'è AutoML?.
Classificazione
Il metodo databricks.automl.classify
configura un'esecuzione AutoML per eseguire il training di un modello di classificazione.
Nota
Il parametro max_trials
è deprecato in Databricks Runtime 10.4 ML e non è supportato in Databricks Runtime 11.0 ML e versioni successive. Usare timeout_minutes
per controllare la durata di un'esecuzione autoML.
databricks.automl.classify(
dataset: Union[pyspark.sql.DataFrame, pandas.DataFrame, pyspark.pandas.DataFrame, str],
*,
target_col: str,
primary_metric: str = "f1",
data_dir: Optional[str] = None,
experiment_dir: Optional[str] = None, # <DBR> 10.4 LTS ML and above
experiment_name: Optional[str] = None, # <DBR> 12.1 ML and above
exclude_cols: Optional[List[str]] = None, # <DBR> 10.3 ML and above
exclude_frameworks: Optional[List[str]] = None, # <DBR> 10.3 ML and above
feature_store_lookups: Optional[List[Dict]] = None, # <DBR> 11.3 LTS ML and above
imputers: Optional[Dict[str, Union[str, Dict[str, Any]]]] = None, # <DBR> 10.4 LTS ML and above
pos_label: Optional[Union[int, bool, str]] = None, # <DBR> 11.1 ML and above
time_col: Optional[str] = None,
split_col: Optional[str] = None, # <DBR> 15.3 ML and above
sample_weight_col: Optional[str] = None # <DBR> 15.4 ML and above
max_trials: Optional[int] = None, # <DBR> 10.5 ML and below
timeout_minutes: Optional[int] = None,
) -> AutoMLSummary
Classificare i parametri
Nome parametro | Tipo | Descrizione |
---|---|---|
dataset |
str , pandas.DataFrame , pyspark.DataFrame pyspark.sql.DataFrame |
Nome tabella di input o DataFrame che contiene funzionalità di training e destinazione. Il nome della tabella può essere in formato "<database_name>.<table_name>" o "<schema_name>.<table_name>" per le tabelle non del catalogo Unity. |
target_col |
str |
Nome della colonna per l'etichetta di destinazione. |
primary_metric |
str |
Metrica usata per valutare e classificare le prestazioni del modello. Metriche supportate per la regressione: "r2" (impostazione predefinita), "mae", "rmse", "mse" Metriche supportate per la classificazione: "f1" (impostazione predefinita), "log_loss", "precisione", "accuratezza", "roc_auc" |
data_dir |
str di formato dbfs:/<folder-name> |
Facoltativo. Percorso DBFS usato per archiviare il set di dati di training. Questo percorso è visibile sia per i nodi driver che per i nodi di lavoro. Databricks consiglia di lasciare vuoto questo campo, in modo che AutoML possa salvare il set di dati di training come artefatto MLflow. Se viene specificato un percorso personalizzato, il set di dati non eredita le autorizzazioni di accesso dell'esperimento AutoML. |
experiment_dir |
str |
Facoltativo. Percorso della directory nell'area di lavoro per salvare i notebook e gli esperimenti generati. Impostazione predefinita: /Users/<username>/databricks_automl/ |
experiment_name |
str |
Facoltativo. Nome dell'esperimento MLflow creato da AutoML. Impostazione predefinita: il nome viene generato automaticamente. |
exclude_cols |
List[str] |
Facoltativo. Elenco di colonne da ignorare durante i calcoli AutoML. Impostazione predefinita: [] |
exclude_frameworks |
List[str] |
Facoltativo. Framework di algoritmi che AutoML non deve considerare durante lo sviluppo di modelli. Valori possibili: elenco vuoto o uno o più di "sklearn", "lightgbm", "xgboost". Impostazione predefinita: [] (tutti i framework sono considerati) |
feature_store_lookups |
List[Dict] |
Facoltativo. Elenco di dizionari che rappresentano le funzionalità di Feature Store per l'aumento dei dati. Le chiavi valide in ogni dizionario sono: - table_name (str): obbligatorio. Nome della tabella delle caratteristiche.- lookup_key (list o str): obbligatorio. Nomi di colonna da usare come chiave durante l'unione della tabella delle funzionalità con i dati passati nel parametro dataset . L'ordine dei nomi delle colonne deve corrispondere all'ordine delle chiavi primarie della tabella delle funzionalità.- timestamp_lookup_key (str): obbligatorio se la tabella specificata è una tabella delle funzionalità della serie temporale. Nome della colonna da usare quando si esegue una ricerca temporizzato nella tabella delle funzionalità con i dati passati nel parametro dataset .Impostazione predefinita: [] |
imputers |
Dict[str, Union[str, Dict[str, Any]]] |
Facoltativo. Dizionario in cui ogni chiave è un nome di colonna e ogni valore è una stringa o un dizionario che descrive la strategia di imputazione. Se specificato come stringa, il valore deve essere "mean", "median" o "most_frequent". Per imputare con un valore noto, specificare il valore come dizionario {"strategy": "constant", "fill_value": <desired value>} . È anche possibile specificare opzioni stringa come dizionari, ad esempio {"strategy": "mean"} .Se non viene fornita alcuna strategia di imputazione per una colonna, AutoML seleziona una strategia predefinita in base al tipo di colonna e al contenuto. Se si specifica un metodo di imputazione non predefinito, AutoML non esegue il rilevamento dei tipi semantici. Impostazione predefinita: {} |
pos_label |
Union[int, bool, str] |
(Solo classificazione) Classe positiva. Ciò è utile per calcolare le metriche, ad esempio precisione e richiamo. Deve essere specificato solo per problemi di classificazione binaria. |
time_col |
str |
Disponibile in Databricks Runtime 10.1 ML e versioni successive. Facoltativo. Nome della colonna per una colonna di orario. Se specificato, AutoML tenta di suddividere il set di dati in set di training, convalida e test cronologicamente, usando i primi punti come dati di training e i punti più recenti come set di test. I tipi di colonna accettati sono timestamp e integer. Con Databricks Runtime 10.2 ML e versioni successive, sono supportate anche le colonne stringa. Se il tipo di colonna è string, AutoML tenta di convertirlo in timestamp usando il rilevamento semantico. Se la conversione ha esito negativo, l'esecuzione di AutoML ha esito negativo. |
split_col |
str |
Facoltativo. Nome della colonna per una colonna divisa. Disponibile solo in Databricks Runtime 15.3 ML e versioni successive per i flussi di lavoro API. Se specificato, AutoML tenta di dividere i set di training/convalida/test in base ai valori specificati dall'utente e questa colonna viene automaticamente esclusa dalle funzionalità di training. Il tipo di colonna accettato è string. Il valore di ogni voce in questa colonna deve essere uno dei seguenti: "train", "validate" o "test". |
sample_weight_col |
str |
Disponibile solo in Databricks Runtime 15.4 ML e versioni successive per la classificazione dei flussi di lavoro API. Facoltativo. Nome della colonna nel set di dati che contiene i pesi di esempio per ogni riga. La classificazione supporta pesi di esempio per classe. Questi pesi regolano l'importanza di ogni classe durante il training del modello. Ogni campione all'interno di una classe deve avere lo stesso peso del campione e i pesi devono essere valori decimali o interi non negativi, compresi tra 0 e 10.000. Le classi con pesi di esempio più elevati sono considerate più importanti e hanno una maggiore influenza sull'algoritmo di apprendimento. Se questa colonna non viene specificata, si presuppone che tutte le classi abbiano un peso uguale. |
max_trials |
int |
Facoltativo. Numero massimo di versioni di valutazione da eseguire. Questo parametro è disponibile in Databricks Runtime 10.5 ML e versioni successive, ma è deprecato a partire da Databricks Runtime 10.3 ML. In Databricks Runtime 11.0 ML e versioni successive questo parametro non è supportato. Valore predefinito: 20 Se timeout_minutes=None, AutoML esegue il numero massimo di versioni di valutazione. |
timeout_minutes |
int |
Facoltativo. Tempo massimo di attesa per il completamento delle versioni di valutazione di AutoML. I timeout più lunghi consentono a AutoML di eseguire più versioni di valutazione e identificare un modello con una maggiore precisione. Impostazione predefinita: 120 minuti Valore minimo: 5 minuti Viene segnalato un errore se il timeout è troppo breve per consentire il completamento di almeno una versione di valutazione. |
Regredire
Il metodo databricks.automl.regress
configura un'esecuzione AutoML per eseguire il training di un modello di regressione. Questo metodo restituisce un AutoMLSummary.
Nota
Il parametro max_trials
è deprecato in Databricks Runtime 10.4 ML e non è supportato in Databricks Runtime 11.0 ML e versioni successive. Usare timeout_minutes
per controllare la durata di un'esecuzione autoML.
databricks.automl.regress(
dataset: Union[pyspark.sql.DataFrame, pandas.DataFrame, pyspark.pandas.DataFrame, str],
*,
target_col: str,
primary_metric: str = "r2",
data_dir: Optional[str] = None,
experiment_dir: Optional[str] = None, # <DBR> 10.4 LTS ML and above
experiment_name: Optional[str] = None, # <DBR> 12.1 ML and above
exclude_cols: Optional[List[str]] = None, # <DBR> 10.3 ML and above
exclude_frameworks: Optional[List[str]] = None, # <DBR> 10.3 ML and above
feature_store_lookups: Optional[List[Dict]] = None, # <DBR> 11.3 LTS ML and above
imputers: Optional[Dict[str, Union[str, Dict[str, Any]]]] = None, # <DBR> 10.4 LTS ML and above
time_col: Optional[str] = None,
split_col: Optional[str] = None, # <DBR> 15.3 ML and above
sample_weight_col: Optional[str] = None, # <DBR> 15.3 ML and above
max_trials: Optional[int] = None, # <DBR> 10.5 ML and below
timeout_minutes: Optional[int] = None,
) -> AutoMLSummary
Parametri regrediti
Nome parametro | Tipo | Descrizione |
---|---|---|
dataset |
str , pandas.DataFrame , pyspark.DataFrame pyspark.sql.DataFrame |
Nome tabella di input o DataFrame che contiene funzionalità di training e destinazione. Il nome della tabella può essere in formato "<database_name>.<table_name>" o "<schema_name>.<table_name>" per le tabelle non del catalogo Unity. |
target_col |
str |
Nome della colonna per l'etichetta di destinazione. |
primary_metric |
str |
Metrica usata per valutare e classificare le prestazioni del modello. Metriche supportate per la regressione: "r2" (impostazione predefinita), "mae", "rmse", "mse" Metriche supportate per la classificazione: "f1" (impostazione predefinita), "log_loss", "precisione", "accuratezza", "roc_auc" |
data_dir |
str di formato dbfs:/<folder-name> |
Facoltativo. Percorso DBFS usato per archiviare il set di dati di training. Questo percorso è visibile sia per i nodi driver che per i nodi di lavoro. Databricks consiglia di lasciare vuoto questo campo, in modo che AutoML possa salvare il set di dati di training come artefatto MLflow. Se viene specificato un percorso personalizzato, il set di dati non eredita le autorizzazioni di accesso dell'esperimento AutoML. |
experiment_dir |
str |
Facoltativo. Percorso della directory nell'area di lavoro per salvare i notebook e gli esperimenti generati. Impostazione predefinita: /Users/<username>/databricks_automl/ |
experiment_name |
str |
Facoltativo. Nome dell'esperimento MLflow creato da AutoML. Impostazione predefinita: il nome viene generato automaticamente. |
exclude_cols |
List[str] |
Facoltativo. Elenco di colonne da ignorare durante i calcoli AutoML. Impostazione predefinita: [] |
exclude_frameworks |
List[str] |
Facoltativo. Framework di algoritmi che AutoML non deve considerare durante lo sviluppo di modelli. Valori possibili: elenco vuoto o uno o più di "sklearn", "lightgbm", "xgboost". Impostazione predefinita: [] (tutti i framework sono considerati) |
feature_store_lookups |
List[Dict] |
Facoltativo. Elenco di dizionari che rappresentano le funzionalità di Feature Store per l'aumento dei dati. Le chiavi valide in ogni dizionario sono: - table_name (str): obbligatorio. Nome della tabella delle caratteristiche.- lookup_key (list o str): obbligatorio. Nomi di colonna da usare come chiave durante l'unione della tabella delle funzionalità con i dati passati nel parametro dataset . L'ordine dei nomi delle colonne deve corrispondere all'ordine delle chiavi primarie della tabella delle funzionalità.- timestamp_lookup_key (str): obbligatorio se la tabella specificata è una tabella delle funzionalità della serie temporale. Nome della colonna da usare quando si esegue una ricerca temporizzato nella tabella delle funzionalità con i dati passati nel parametro dataset .Impostazione predefinita: [] |
imputers |
Dict[str, Union[str, Dict[str, Any]]] |
Facoltativo. Dizionario in cui ogni chiave è un nome di colonna e ogni valore è una stringa o un dizionario che descrive la strategia di imputazione. Se specificato come stringa, il valore deve essere "mean", "median" o "most_frequent". Per imputare con un valore noto, specificare il valore come dizionario {"strategy": "constant", "fill_value": <desired value>} . È anche possibile specificare opzioni stringa come dizionari, ad esempio {"strategy": "mean"} .Se non viene fornita alcuna strategia di imputazione per una colonna, AutoML seleziona una strategia predefinita in base al tipo di colonna e al contenuto. Se si specifica un metodo di imputazione non predefinito, AutoML non esegue il rilevamento dei tipi semantici. Impostazione predefinita: {} |
time_col |
str |
Disponibile in Databricks Runtime 10.1 ML e versioni successive. Facoltativo. Nome della colonna per una colonna di orario. Se specificato, AutoML tenta di suddividere il set di dati in set di training, convalida e test cronologicamente, usando i primi punti come dati di training e i punti più recenti come set di test. I tipi di colonna accettati sono timestamp e integer. Con Databricks Runtime 10.2 ML e versioni successive, sono supportate anche le colonne stringa. Se il tipo di colonna è string, AutoML tenta di convertirlo in timestamp usando il rilevamento semantico. Se la conversione ha esito negativo, l'esecuzione di AutoML ha esito negativo. |
split_col |
str |
Facoltativo. Nome della colonna per una colonna divisa. Disponibile solo in Databricks Runtime 15.3 ML e versioni successive per i flussi di lavoro API. Se specificato, AutoML tenta di dividere i set di training/convalida/test in base ai valori specificati dall'utente e questa colonna viene automaticamente esclusa dalle funzionalità di training. Il tipo di colonna accettato è string. Il valore di ogni voce in questa colonna deve essere uno dei seguenti: "train", "validate" o "test". |
sample_weight_col |
str |
Disponibile in Databricks Runtime 15.3 ML e versioni successive per i flussi di lavoro dell'API di regressione. Facoltativo. Nome della colonna nel set di dati che contiene i pesi di esempio per ogni riga. Questi pesi regolano l'importanza di ogni riga durante il training del modello. I pesi devono essere valori decimali o interi non negativi, compresi tra 0 e 10.000. Le righe con pesi di esempio più elevati sono considerate più importanti e hanno una maggiore influenza sull'algoritmo di apprendimento. Se questa colonna non viene specificata, si presuppone che tutte le righe abbiano un peso uguale. |
max_trials |
int |
Facoltativo. Numero massimo di versioni di valutazione da eseguire. Questo parametro è disponibile in Databricks Runtime 10.5 ML e versioni successive, ma è deprecato a partire da Databricks Runtime 10.3 ML. In Databricks Runtime 11.0 ML e versioni successive questo parametro non è supportato. Valore predefinito: 20 Se timeout_minutes=None, AutoML esegue il numero massimo di versioni di valutazione. |
timeout_minutes |
int |
Facoltativo. Tempo massimo di attesa per il completamento delle versioni di valutazione di AutoML. I timeout più lunghi consentono a AutoML di eseguire più versioni di valutazione e identificare un modello con una maggiore precisione. Impostazione predefinita: 120 minuti Valore minimo: 5 minuti Viene segnalato un errore se il timeout è troppo breve per consentire il completamento di almeno una versione di valutazione. |
Forecast
Il metodo databricks.automl.forecast
configura un'esecuzione AutoML per il training di un modello di previsione. Questo metodo restituisce un AutoMLSummary.
Per usare Auto-ARIMA, la serie temporale deve avere una frequenza regolare, ovvero l'intervallo tra due punti deve essere lo stesso per tutta la serie temporale. La frequenza deve corrispondere all'unità di frequenza specificata nella chiamata API. AutoML gestisce i passaggi temporali mancanti compilando tali valori con il valore precedente.
databricks.automl.forecast(
dataset: Union[pyspark.sql.DataFrame, pandas.DataFrame, pyspark.pandas.DataFrame, str],
*,
target_col: str,
time_col: str,
primary_metric: str = "smape",
country_code: str = "US", # <DBR> 12.0 ML and above
frequency: str = "D",
horizon: int = 1,
data_dir: Optional[str] = None,
experiment_dir: Optional[str] = None,
experiment_name: Optional[str] = None, # <DBR> 12.1 ML and above
exclude_frameworks: Optional[List[str]] = None,
feature_store_lookups: Optional[List[Dict]] = None, # <DBR> 12.2 LTS ML and above
identity_col: Optional[Union[str, List[str]]] = None,
sample_weight_col: Optional[str] = None, # <DBR> 16.0 ML and above
output_database: Optional[str] = None, # <DBR> 10.5 ML and above
timeout_minutes: Optional[int] = None,
) -> AutoMLSummary
Parametri di previsione
Nome parametro | Tipo | Descrizione |
---|---|---|
dataset |
str , pandas.DataFrame , pyspark.DataFrame pyspark.sql.DataFrame |
Nome tabella di input o DataFrame che contiene funzionalità di training e destinazione. Il nome della tabella può essere in formato ".." o “.” per tabelle non del catalogo Unity |
target_col |
str |
Nome della colonna per l'etichetta di destinazione. |
time_col |
str |
Nome della colonna temporale per la previsione. |
primary_metric |
str |
Metrica usata per valutare e classificare le prestazioni del modello. Metriche supportate: "smape" (impostazione predefinita), "mse", "rmse", "mae" o "mdape". |
country_code |
str |
Disponibile in Databricks Runtime 12.0 ML e versioni successive. Supportato solo dal modello di previsione Prophet. Facoltativo. Codice paese a due lettere che indica le festività del paese in cui deve essere usato il modello di previsione. Per ignorare le festività, impostare questo parametro su una stringa vuota (""). Paesi supportati. Impostazione predefinita: Stati Uniti (Stati Uniti festività). |
frequency |
str |
Frequenza della serie temporale per la previsione. Questo è il periodo con cui si prevede che si verifichino eventi. L'impostazione predefinita è "D" o dati giornalieri. Assicurarsi di modificare l'impostazione se i dati hanno una frequenza diversa. Valori possibili: "W" (settimane) "D" / "days" / "day" "hours" / "hour" / "hr" / "h" "m" / "minute" / "min" / "minutes" / "T" "S" / "seconds" / "sec" / "second" Quanto segue è disponibile solo in Databricks Runtime 12.0 ML e versioni successive: “M” / “month” / “months” “Q” / “quarter” / “quarters” “Y” / “year” / “years” Impostazione predefinita: “D” |
horizon |
int |
Numero di periodi nel futuro per i quali devono essere restituite le previsioni. Le unità sono espresse in unità di frequenza delle serie temporali. Predefinito: 1 |
data_dir |
str di formato dbfs:/<folder-name> |
Facoltativo. Percorso DBFS usato per archiviare il set di dati di training. Questo percorso è visibile sia per i nodi driver che per i nodi di lavoro. Databricks consiglia di lasciare vuoto questo campo, in modo che AutoML possa salvare il set di dati di training come artefatto MLflow. Se viene specificato un percorso personalizzato, il set di dati non eredita le autorizzazioni di accesso dell'esperimento AutoML. |
experiment_dir |
str |
Facoltativo. Percorso della directory nell'area di lavoro per salvare i notebook e gli esperimenti generati. Impostazione predefinita: /Users/<username>/databricks_automl/ |
experiment_name |
str |
Facoltativo. Nome dell'esperimento MLflow creato da AutoML. Impostazione predefinita: il nome viene generato automaticamente. |
exclude_frameworks |
List[str] |
Facoltativo. Framework di algoritmi che AutoML non deve considerare durante lo sviluppo di modelli. Valori possibili: elenco vuoto o uno o più di "profeta", "arima". Impostazione predefinita: [] (tutti i framework sono considerati) |
feature_store_lookups |
List[Dict] |
Facoltativo. Elenco di dizionari che rappresentano le funzionalità di Feature Store per l'aumento dei dati covariati. Le chiavi valide in ogni dizionario sono: - table_name (str): obbligatorio. Nome della tabella delle caratteristiche.- lookup_key (list o str): obbligatorio. Nomi di colonna da usare come chiave durante l'unione della tabella delle funzionalità con i dati passati nel parametro dataset . L'ordine dei nomi delle colonne deve corrispondere all'ordine delle chiavi primarie della tabella delle funzionalità.- timestamp_lookup_key (str): obbligatorio se la tabella specificata è una tabella delle funzionalità della serie temporale. Nome della colonna da usare quando si esegue una ricerca temporizzato nella tabella delle funzionalità con i dati passati nel parametro dataset .Impostazione predefinita: [] |
identity_col |
Union[str, list] |
Facoltativo. Colonne che identificano la serie temporale per la previsione di più serie. AutoML raggruppa in base a queste colonne e alla colonna temporale per la previsione. |
sample_weight_col |
str |
Disponibile in Databricks Runtime 16.0 ML e versioni successive. Solo per flussi di lavoro di serie multi-time. Facoltativo. Specifica la colonna nel set di dati che contiene pesi di esempio. Questi pesi indicano l'importanza relativa di ogni serie temporale durante il training e la valutazione del modello. Le serie temporali con pesi più elevati hanno un'influenza maggiore sul modello. Se non specificato, tutte le serie temporali vengono trattate con peso uguale. Tutte le righe appartenenti alla stessa serie temporale devono avere lo stesso peso. I pesi devono essere valori non negativi, decimali o interi, e devono essere compresi tra 0 e 10.000. |
output_database |
str |
Facoltativo. Se specificato, AutoML salva le stime del modello migliore in una nuova tabella nel database specificato. Impostazione predefinita: le stime non vengono salvate. |
timeout_minutes |
int |
Facoltativo. Tempo massimo di attesa per il completamento delle versioni di valutazione di AutoML. I timeout più lunghi consentono a AutoML di eseguire più versioni di valutazione e identificare un modello con una maggiore precisione. Impostazione predefinita: 120 minuti Valore minimo: 5 minuti Viene segnalato un errore se il timeout è troppo breve per consentire il completamento di almeno una versione di valutazione. |
Importa notebook
Il metodo databricks.automl.import_notebook
importa un notebook salvato come artefatto MLflow. Questo metodo restituisce un ImportNotebookResult.
databricks.automl.import_notebook(
artifact_uri: str,
path: str,
overwrite: bool = False
) -> ImportNotebookResult:
Parametri | Tipo | Descrizione |
---|---|---|
artifact_uri |
str |
URI dell'artefatto MLflow che contiene il notebook di valutazione. |
path |
str |
Percorso nell'area di lavoro di Databricks in cui deve essere importato il notebook. Questo deve essere un percorso assoluto. Se la directory non esiste, viene creata. |
overwrite |
bool |
Se sovrascrivere il notebook se esiste già. È False per impostazione predefinita. |
Esempio di importazione del notebook
summary = databricks.automl.classify(...)
result = databricks.automl.import_notebook(summary.trials[5].artifact_uri, "/Users/you@yourcompany.com/path/to/directory")
print(result.path)
print(result.url)
AutoMLSummary
Oggetto riepilogo per un'esecuzione AutoML che descrive le metriche, i parametri e altri dettagli per ognuna delle versioni di valutazione. Questo oggetto viene usato anche per caricare il modello sottoposto a training da una versione di valutazione specifica.
Proprietà | Type | Descrizione |
---|---|---|
experiment |
mlflow.entities.Experiment |
Esperimento MLflow usato per registrare le versioni di valutazione. |
trials |
List[TrialInfo] |
Elenco di oggetti TrialInfo contenenti informazioni su tutte le versioni di valutazione eseguite. |
best_trial |
TrialInfo |
Oggetto TrialInfo contenente informazioni sulla versione di valutazione che ha generato il punteggio ponderato migliore per la metrica primaria. |
metric_distribution |
str |
Distribuzione dei punteggi ponderati per la metrica primaria in tutte le versioni di valutazione. |
output_table_name |
str |
Usato solo con le previsioni e solo se viene fornito output_database. Nome della tabella in output_database contenente le previsioni del modello. |
TrialInfo
Oggetto riepilogo per ogni singola versione di valutazione.
Proprietà | Type | Descrizione |
---|---|---|
notebook_path |
Optional[str] |
Percorso del notebook generato per questa versione di valutazione nell'area di lavoro. Per la classificazione e la regressione, questo valore viene impostato solo per la versione di valutazione migliore, mentre tutti gli altri test hanno il valore impostato su None .Per la previsione, questo valore è presente per tutte le versioni di valutazione. |
notebook_url |
Optional[str] |
URL del notebook generato per questa versione di valutazione. Per la classificazione e la regressione, questo valore viene impostato solo per la versione di valutazione migliore, mentre tutti gli altri test hanno il valore impostato su None .Per la previsione, questo valore è presente per tutte le versioni di valutazione. |
artifact_uri |
Optional[str] |
URI dell'artefatto MLflow per il notebook generato. |
mlflow_run_id |
str |
ID di esecuzione MLflow associato a questa esecuzione di valutazione. |
metrics |
Dict[str, float] |
Le metriche registrate in MLflow per questa versione di valutazione. |
params |
Dict[str, str] |
I parametri registrati in MLflow usati per questa versione di valutazione. |
model_path |
str |
URL dell'artefatto MLflow del modello sottoposto a training in questa versione di valutazione. |
model_description |
str |
Breve descrizione del modello e degli iperparametri usati per il training di questo modello. |
duration |
str |
Durata del training in minuti. |
preprocessors |
str |
Descrizione dei preprocessori eseguiti prima del training del modello. |
evaluation_metric_score |
float |
Punteggio della metrica primaria, valutato per il set di dati di convalida. |
TrialInfo
dispone di un metodo per caricare il modello generato per la versione di valutazione.
metodo | Descrizione |
---|---|
load_model() |
Caricare il modello generato in questa versione di valutazione, registrato come artefatto MLflow. |
ImportNotebookResult
Proprietà | Type | Descrizione |
---|---|---|
path |
str |
Percorso nell'area di lavoro di Databricks in cui deve essere importato il notebook. Questo deve essere un percorso assoluto. Se la directory non esiste, viene creata. |
url |
str |
URI dell'artefatto MLflow che contiene il notebook di valutazione. |