Previsione con AutoML (calcolo classico)

Articolo
12/27/2024

Usare AutoML per trovare automaticamente l'algoritmo di previsione e la configurazione degli iperparametri migliori per stimare values in base ai dati delle serie temporali.

La previsione di serie temporali è disponibile solo per Databricks Runtime 10.0 ML o versione successiva.

Set esperimento di previsione con l'interfaccia utente

È possibile set un problema di previsione usando l'interfaccia utente di AutoML con la procedura seguente:

Nella barra laterale selectEsperimenti.
Nella scheda Previsione Avviare il training.

Per impostazione predefinita, l'interfaccia utente di previsione previsione serverless. Per accedere alle previsioni con il proprio ambiente di calcolo, selectritornare all'esperienza precedente.

Configurare l'esperimento AutoML

Viene visualizzata la pagina Configura esperimento AutoML. In questa pagina configuri il processo AutoML, specificando il set di dati, il tipo di problema, il target o l'etichetta column da predire, la metrica da utilizzare per valutare e assegnare punteggi alle esecuzioni dell'esperimento e le condizioni di arresto.
Nel campo Computeselect un cluster che esegue Databricks Runtime 10.0 ML o versione successiva.
In Set di dati cliccare Sfoglia. Vai al table che vuoi utilizzare e fai clic su Select. Viene visualizzato il tableschema.
Fare clic nel campo Obiettivo di previsione. Viene visualizzato un menu a discesa che elenca i columns mostrati nel schema. Select il column che il modello deve prevedere.
Fare clic nel campo ora column. Viene visualizzato un elenco a discesa che mostra il set di dati columns di tipo timestamp o date. Select il column contenente i periodi di tempo per la serie temporale.
Per la previsione di più serie, select l'column(s) che identifica le singole serie temporali dagli identificatori di serie temporali elenco a discesa. AutoML raggruppa i dati in base a questi columns come serie temporali diverse e esegue il training di un modello per ogni serie in modo indipendente. Se si lascia vuoto questo campo, AutoML presuppone che il set di dati contenga una singola serie temporale.
Nei campi Orizzonte previsione e frequenza specificare il numero di periodi di tempo nel futuro per cui AutoML deve calcolare le previsioni values. Nella casella a sinistra immettere il numero intero di periodi da prevedere. Inserisci nella casella destra select le unità.

Nota

Per usare Auto-ARIMA, la serie temporale deve avere una frequenza regolare where l'intervallo tra due punti deve essere lo stesso per tutta la serie temporale. La frequenza deve corrispondere all'unità di frequenza specificata nella chiamata API o nell'interfaccia utente di AutoML. AutoML gestisce i passaggi temporali mancanti riempiendo quei values con il valore precedente.
In Databricks Runtime 11.3 LTS ML e versioni successive è possibile salvare i risultati della previsione. A tale scopo, specificare un database nel campo Database di output. Fare clic su Sfoglia e select un database dalla finestra di dialogo. AutoML scrive i risultati della previsione in table in questo database.
Il campo Nome esperimento mostra il nome predefinito. Per modificarlo, digitare il nuovo nome nel campo.

È anche possibile:

Specificare opzioni di configurazione aggiuntive.
Usare la funzionalità esistente in Feature Store tables per arricchire il set di dati di input originale.

Configurazioni avanzate

Aprire la sezione configurazione avanzata (facoltativa) per accedere a questi parameters.

La metrica di valutazione è la metrica primaria usata per assegnare un punteggio alle esecuzioni.
In Databricks Runtime 10.4 LTS ML e versioni successive è possibile escludere i framework di training dalla considerazione. Per impostazione predefinita, AutoML esegue il training dei modelli usando i framework elencati in Algoritmi AutoML.
È possibile modificare le condizioni di arresto. Le condizioni di arresto predefinite sono:
- Per gli esperimenti di previsione, eseguire l'aresto dopo 120 minuti.
- In Databricks Runtime 10.4 LTS ML e versioni successive, per gli esperimenti di classificazione e regressione, eseguire l'arresto dopo 60 minuti o dopo aver completato 200 prove, a seconda di quale situazione si verifica per prima. Per Databricks Runtime 11.0 ML e versioni successive, il numero di prove non viene usato come condizione di arresto.
- Inoltre, in Databricks Runtime 10.4 ML e versioni successive, gli esperimenti di classificazione e regressione, AutoML incorpora l'arresto anticipato; interromperà il training e l'ottimizzazione dei modelli se la metrica di convalida non sta più migliorando.
In Databricks Runtime 10.4 LTS ML e versioni successive è possibile select un time column per suddividere i dati per il training, la convalida e il test in ordine cronologico (si applica solo alla classificazione e regressione).
Databricks consiglia di non popolare il campo Directory dati. In questo modo viene attivato il comportamento predefinito dell'archiviazione sicura del set di dati come artefatto MLflow. È possibile specificare un percorso DBFS, ma in questo caso il set di dati non eredita le autorizzazioni di accesso dell'esperimento AutoML.

Eseguire l'esperimento e monitorare i risultati

Per avviare l'esperimento AutoML, cliccare Avvia AutoML. L'esperimento inizia a essere eseguito e viene visualizzata la pagina di training AutoML. Per refresh l'esecuzione table, fare clic sul pulsante .

Visualizzare lo stato dell'esperimento

Da questa pagina è possibile:

Arrestare l'esperimento in qualsiasi momento.
Aprire un notebook di esplorazione dei dati.
Monitorare le esecuzioni.
Passare alla pagina di esecuzione per qualsiasi esecuzione.

Con Databricks Runtime 10.1 ML e versioni successive, AutoML visualizza avvisi per potenziali problemi con il set di dati, ad esempio tipi non supportati di column o columnsa cardinalità elevata.

Nota

Databricks fa del suo meglio per indicare potenziali errori o problemi. Tuttavia, queste segnalazioni potrebbero non essere complete e potrebbero non acquisire i problemi o gli errori che l'utente sta cercando.

Per visualizzare eventuali avvisi per il set di dati, cliccare la scheda Avvisi nella pagina di training o nella pagina dell'esperimento al termine dell'esperimento.

Avvisi autoML

Visualizza risultati

Al termine dell'esperimento, è possibile:

Registrare e distribuire uno dei modelli con MLflow.
Select Visualizza notebook per modello ottimale per esaminare e modificare il notebook che ha creato il modello migliore.
Select Visualizza il notebook di esplorazione dei dati per aprire il notebook di esplorazione.
Cerca, filtra e ordina le esecuzioni nella corsa table.
Vedere i dettagli per qualsiasi esecuzione:
- Il notebook generato contenente il codice sorgente per un'esecuzione di prova è disponibile facendo clic sull'esecuzione di MLflow. Il notebook viene salvato nella sezione Artefatti della pagina di esecuzione. È possibile scaricare questo notebook e importarlo nell’area di lavoro, se il download degli artefatti viene abilitato dagli amministratori dell’area di lavoro.
- Per visualizzare i risultati dell'esecuzione, fare clic su modelli column o sull'ora di inizio column. Viene visualizzata la pagina di esecuzione, che mostra informazioni sulla versione di prova (ad esempio parameters, metriche e tag) e include gli artefatti creati dall'esecuzione, tra cui il modello. Questa pagina include anche frammenti di codice che possono essere utilizzati per eseguire previsioni con il modello.

Per tornare a questo esperimento AutoML in un secondo momento, cercalo nella sezione table della pagina Esperimenti . I risultati di ogni esperimento AutoML, inclusi i notebook di esplorazione e training dei dati, vengono archiviati in una cartella databricks_automl nella home directory dell'utente che ha eseguito l'esperimento.

Registrare e implementare un modello

È possibile registrare e distribuire il modello con l'interfaccia utente di AutoML:

Select il collegamento nei modelli column per la registrazione del modello. Al termine di un'esecuzione, la riga superiore è il modello migliore (in base alla metrica primaria).
Select per registrare il modello in Registro Modelli.
Modelli nella barra laterale Iconaper accedere al Registro modelli.
Select il nome del tuo modello nel modello table.
Dalla pagina del modello registrato è possibile gestire il modello con Model Serving.

Nessun modulo denominato pandas.core.indexes.numeric

Quando si gestisce un modello compilato usando AutoML con Model Serving, è possibile get l'errore: No module named 'pandas.core.indexes.numeric.

Ciò è dovuto a una versione incompatibile pandas tra AutoML e l'ambiente endpoint di gestione del modello. È possibile risolvere questo errore eseguendo lo script add-pandas-dependency.py. Lo script modifica requirements.txt e conda.yaml per il modello registrato in modo da includere la versione di dipendenza pandas appropriata: pandas==1.5.3.

Modificare lo script per includere il run_id dell'esecuzione di MLflow in cui è stato registrato il modello where.
Ripetere la registrazione del modello nel Registro di sistema del modello MLflow.
Provare a gestire la nuova versione del modello MLflow.

Condividi tramite