Task notebook per i processi

Articolo
10/16/2024

Usare il task notebook per distribuire i notebook di Databricks.

Configurare un task notebook

Prima di iniziare, è necessario disporre del notebook in una posizione accessibile dall'utente che configura il processo.

Nota

L'interfaccia utente dei processi visualizza le opzioni in modo dinamico in base ad altre impostazioni configurate.

Per avviare il flusso e configurare un task Notebook:

Passare alla scheda Task nell'interfaccia utente Processi.
Nel menu a discesa Tipo selezionare Notebook.

Configurare l'origine

Nel menu a discesa Origine, selezionare una posizione per lo script Python usando una delle opzioni seguenti.

Area di lavoro

Usare l'area di lavoro per configurare un notebook archiviato nell'area di lavoro, completando i passaggi seguenti:

Cliccare il campo Percorso. Viene visualizzata la finestra di dialogo Seleziona notebook.
Passare al notebook, cliccare per evidenziare il file e cliccare Conferma.

Nota

È possibile usare questa opzione per configurare un task per un notebook archiviato in una cartella Git di Databricks. Databricks consiglia di usare l'opzione del Git provider con un repository Git remoto per il controllo delle versioni delle risorse pianificate con i processi.

Git provider

Usare il Git provider per configurare un notebook archiviato in un repository Git remoto.

Le opzioni visualizzate dall'interfaccia utente dipendono dal fatto che sia già stato configurato un Git provider altrove. È possibile usare un solo repository Git remoto per tutti i task in un processo. Vedere Usare Git con i processi.

Importante

I notebook creati da processi di Azure Databricks che vengono eseguiti da repository Git remoti sono temporanei e non possono essere usati per rilevare le esecuzioni, gli esperimenti o i modelli MLflow. Quando si crea un notebook a partire da un processo, usare un esperimento MLflow dell'area di lavoro (anziché un esperimento MLflow del notebook) e chiamare mlflow.set_experiment("/path/to/experiment") nel notebook dell'area di lavoro prima di eseguire qualsiasi codice di rilevamento MLflow. Per altri dettagli, vedere Evitare la perdita di dati negli esperimenti MLflow.

Il campo Percorso viene visualizzato dopo che è stato configurato un riferimento Git.

Immettere il percorso relativo per il notebook, ad esempio etl/bronze/ingest.py.

Importante

Quando si immette il percorso relativo, non iniziare con / o ./. Ad esempio, se il percorso assoluto del notebook a cui si vuole accedere è /etl/bronze/ingest.py, immettere etl/bronze/ingest.py nel campo Percorso.

Configurare le librerie di calcolo e dipendenti

Usare Calcolo per selezionare o configurare un cluster che supporta la logica nel notebook.
Se si usa il calcolo Serverless, usare il campo Environment and Libraries (Ambiente e librerie) per selezionare, modificare o aggiungere un nuovo ambiente. Vedere Installare le dipendenze del notebook.
Per tutte le altre configurazioni di calcolo, cliccare + Add (Aggiungi) in Dependent libraries (Librerie dipendenti). Verrà visualizzata la finestra di dialogo Add dependent library (Aggiungi libreria dipendente).
- È possibile selezionare una libreria esistente o caricare una nuova libreria.
- È possibile usare solo le librerie archiviate in una posizione supportata dalle configurazioni di calcolo. Vedere Supporto della libreria Python.
- Ogni Origine libreria ha un flusso diverso per la selezione o il caricamento di una libreria. Vedere Librerie.

Completare la configurazione dei processi

(Facoltativo) Configurare i Parametri come coppie chiave-valore a cui è possibile accedere nel notebook usando dbutils.widgets. Vedere Configurare i parametri dei task.
Cliccare Salva task.

Limiti

L'output totale della cella del notebook (l'output combinato di tutte le celle del notebook) è soggetto a un limite di dimensioni di 20 MB. Inoltre, l'output di una singola cella è soggetto a un limite di dimensioni di 8 MB. Se l'output totale della cella supera le dimensioni di 20 MB o se l'output di una singola cella è maggiore di 8 MB, l'esecuzione viene annullata e contrassegnata come non riuscita.

Se è necessario trovare celle vicino o oltre il limite, eseguire il notebook in un cluster all-purpose e usare questa tecnica di salvataggio automatico del notebook.

Condividi tramite