Condividi tramite


Task script Python per i processi

Usare il task script Python per eseguire un file Python.

Configurare un task script Python

Prima di iniziare, è necessario caricare lo script Python in una posizione accessibile all'utente che configura il processo. Databricks consiglia di usare i file di area di lavoro per gli script Python. Si veda Che cosa sono i file di area di lavoro?.

Nota

L'interfaccia utente dei processi visualizza le opzioni in modo dinamico in base ad altre impostazioni configurate.

Databricks sconsiglia di archiviare codice o dati usando la radice o i montaggi DBFS. È invece possibile eseguire la migrazione degli script Python ai file o ai volumi dell'area di lavoro o usare gli URI per accedere all'archiviazione di oggetti cloud.

Per avviare il flusso e configurare un task Python script:

  1. Passare alla scheda Task nell'interfaccia utente Processi.
  2. Nel menu a discesa Tipo selezionare Python script.

Configurare l'origine

Nel menu a discesa Origine, selezionare una posizione per lo script Python usando una delle opzioni seguenti.

Area di lavoro

Usare l'area di lavoro per configurare uno script Python archiviato usando i file dell'area di lavoro.

  1. Cliccare il campo Percorso. Viene visualizzata la finestra di dialogo Seleziona file Python.
  2. Passare allo script Python, cliccare per evidenziare il file e cliccare Conferma.

Nota

È possibile usare questa opzione per configurare un task in uno script Python archiviato in una cartella Git di Databricks. Databricks consiglia di usare l'opzione del Git provider con un repository Git remoto per il controllo delle versioni delle risorse pianificate con i processi.

DBFS/ADLS

Usare DBFS/ADLS per configurare uno script Python archiviato in un volume, in una posizione di archiviazione di oggetti cloud o nella radice DBFS.

Databricks consiglia di archiviare script Python nei volumi di Unity Catalog o nell'archiviazione di oggetti cloud.

Nel campo Percorso, immettere l'URI per lo script Python. Ad esempio, /Volumes/path/to/script.py o abfss://container-name@storage-account-name.dfs.core.windows.net/path/to/script.py.

Git provider

Usare il Git provider per configurare uno script Python archiviato in un repository Git remoto.

Le opzioni visualizzate dall'interfaccia utente dipendono dal fatto che sia già stato configurato un Git provider altrove. È possibile usare un solo repository Git remoto per tutti i task in un processo. Vedere Usare Git con i processi.

Il campo Percorso viene visualizzato dopo che è stato configurato un riferimento Git.

Immettere il percorso relativo per lo script Python, ad esempio etl/bronze/ingest.py.

Importante

Quando si immette il percorso relativo, non iniziare con / o ./. Ad esempio, se il percorso assoluto del codice Python a cui si vuole accedere è /etl/bronze/ingest.py, immettere etl/bronze/ingest.py nel campo Percorso.

Configurare le librerie di calcolo e dipendenti

  1. Usare Calcolo per selezionare o configurare un cluster che supporta la logica nello script in uso.
  2. Se si usa il calcolo Serverless, usare il campo Environment and Libraries (Ambiente e librerie) per selezionare, modificare o aggiungere un nuovo ambiente. Vedere Installare le dipendenze del notebook.
  3. Per tutte le altre configurazioni di calcolo, cliccare + Add (Aggiungi) in Dependent libraries (Librerie dipendenti). Verrà visualizzata la finestra di dialogo Add dependent library (Aggiungi libreria dipendente).
    • È possibile selezionare una libreria esistente o caricare una nuova libreria.
    • È possibile usare solo le librerie archiviate in una posizione supportata dalle configurazioni di calcolo. Vedere Supporto della libreria Python.
    • Ogni Origine libreria ha un flusso diverso per la selezione o il caricamento di una libreria. Vedere Librerie.

Completare la configurazione dei processi

  1. (Facoltativo) Configurare i parametri come elenco di stringhe passate come argomenti CLI allo script Python. Vedere Configurare i parametri dei task.
  2. Cliccare Salva task.