Tarefa de script Python para trabalhos
Use a tarefa de script Python para executar um arquivo Python.
Configurar uma tarefa de script Python
Antes de começar, você deve carregar seu script Python para um local acessível ao usuário que está configurando o trabalho. O Databricks recomenda o uso de arquivos de espaço de trabalho para scripts Python. Consulte O que são arquivos de espaço de trabalho?.
Nota
A interface do usuário de trabalhos exibe opções dinamicamente com base em outras configurações configuradas.
O Databricks recomenda não armazenar código ou dados usando a raiz ou montagens DBFS. Em vez disso, você pode migrar scripts Python para arquivos de espaço de trabalho ou volumes ou usar URIs para acessar o armazenamento de objetos na nuvem.
Para iniciar o fluxo para configurar uma Python script
tarefa:
- Navegue até a guia Tarefas na interface do usuário Trabalhos.
- No menu suspenso Tipo, select
Python script
.
Configurar a origem
No menu suspenso Source, select um local para o script Python usando uma das seguintes opções.
Área de trabalho
Use Workspace para configurar um script Python armazenado usando arquivos de espaço de trabalho.
- Clique no campo Caminho . A caixa de diálogo do arquivo Python Select é exibida.
- Navegue até o script Python, clique para realçar o arquivo e clique em Confirmar.
Nota
Você pode usar essa opção para configurar uma tarefa em um script Python armazenado em uma pasta Databricks Git. O Databricks recomenda o uso da opção de provedor Git e um repositório Git remoto para ativos de versão agendados com trabalhos.
DBFS/ADLS
Use DBFS/ADLS para configurar um script Python armazenado em um volume, local de armazenamento de objetos na nuvem ou a raiz DBFS.
O Databricks recomenda armazenar scripts Python no Unity Catalogvolumes ou no armazenamento de objetos na nuvem.
No campo Caminho, insira o URI para o script Python. Por exemplo, /Volumes/path/to/script.py
ou abfss://container-name@storage-account-name.dfs.core.windows.net/path/to/script.py
.
Provedor Git
Use o provedor Git para configurar um script Python armazenado em um repositório Git remoto.
As opções exibidas pela interface do usuário dependem se você já configurou ou não um provedor Git em outro lugar. Apenas um repositório Git remoto pode ser usado para todas as tarefas em um trabalho. Consulte Usar o Git com trabalhos.
O campo Caminho aparece depois de configurar uma referência git.
Insira o caminho relativo para seu script Python, como etl/bronze/ingest.py
.
Importante
Ao inserir o caminho relativo, não comece com /
ou ./
. Por exemplo, se o caminho absoluto para o código Python que você deseja acessar for /etl/bronze/ingest.py
, digite etl/bronze/ingest.py
no campo Caminho .
Configurar bibliotecas dependentes e de computação
- Use Computação para select ou configure um cluster que ofereça suporte à lógica do seu script.
- Caso utilize a computação
Serverless
, use o campo de Ambiente e as Bibliotecas para select, editar ou adicionar um novo ambiente. Consulte Instalar dependências do bloco de anotações. - Para todas as outras configurações de computação, clique em + Adicionar em Bibliotecas dependentes. A caixa de diálogo Adicionar biblioteca dependente é exibida.
- Pode select uma biblioteca existente ou carregar uma nova biblioteca.
- Você só pode usar bibliotecas armazenadas em um local suportado por suas configurações de computação. Consulte Suporte à biblioteca Python.
- Cada fonte de biblioteca tem um fluxo diferente para selecionar ou carregar uma biblioteca. Consulte Bibliotecas.
Finalizar a configuração do trabalho
- (Opcional) Configure Parameters como uma list de cadeias de caracteres passadas como argumentos da CLI para o script Python. Consulte Configurar tarefa parameters.
- Clique em Salvar tarefa.