Tarefa do bloco de notas para trabalhos
Use a tarefa do bloco de anotações para implantar blocos de anotações Databricks.
Configurar uma tarefa do bloco de notas
Antes de começar, você deve ter seu bloco de anotações em um local acessível pelo usuário que está configurando o trabalho.
Nota
A interface do usuário de trabalhos exibe opções dinamicamente com base em outras configurações configuradas.
Para iniciar o fluxo para configurar uma Notebook
tarefa:
- Navegue até a guia Tarefas na interface do usuário Trabalhos.
- No menu suspenso Tipo, select
Notebook
.
Configurar a origem
No menu suspenso Source, selecione select um local para o script Python usando uma das seguintes opções.
Área de trabalho
Use o espaço de trabalho para configurar um bloco de anotações armazenado no espaço de trabalho concluindo as seguintes etapas:
- Clique no campo Caminho . A caixa de diálogo Bloco de Anotações
é exibida. - Navegue até o bloco de anotações, clique para realçar o arquivo e clique em Confirmar.
Nota
Você pode usar essa opção para configurar uma tarefa para um bloco de anotações armazenado em uma pasta Git do Databricks. O Databricks recomenda o uso da opção de provedor Git e um repositório Git remoto para versionamento de ativos agendados com trabalhos.
Provedor Git
Use o provedor Git para configurar um bloco de anotações em um repositório Git remoto.
As opções exibidas pela interface do usuário dependem se você já configurou ou não um provedor Git em outro lugar. Apenas um repositório Git remoto pode ser usado para todas as tarefas em um trabalho. Consulte Usar o Git com trabalhos.
Importante
Os blocos de anotações criados por trabalhos do Azure Databricks executados a partir de repositórios Git remotos são efêmeros e não podem ser confiáveis para rastrear execuções, experimentos ou modelos do MLflow. Ao criar um bloco de anotações a partir de um trabalho, use um experimento MLflow do espaço de trabalho (em vez de um experimento MLflow do bloco de anotações) e chame mlflow.set_experiment("/path/to/experiment")
o bloco de anotações do espaço de trabalho antes de executar qualquer código de controle do MLflow. Para obter mais detalhes, consulte Evitar perda de dados em experimentos MLflow.
O campo Caminho aparece depois de configurar uma referência git.
Insira o caminho relativo para seu bloco de anotações, como etl/bronze/ingest.py
.
Importante
Ao inserir o caminho relativo, não comece com /
ou ./
. Por exemplo, se o caminho absoluto para o bloco de anotações que você deseja acessar for /etl/bronze/ingest.py
, insira etl/bronze/ingest.py
no campo Caminho .
Configurar bibliotecas dependentes e de computação
- Use de computação para select ou configure um cluster que suporte a lógica no seu caderno.
- Se utilizares
Serverless
para computar, usa o campo Ambiente e Bibliotecas para select, editares ou adicionares um novo ambiente. Consulte Instalar dependências do bloco de anotações. - Para todas as outras configurações de computação, clique em + Adicionar em Bibliotecas dependentes. A caixa de diálogo Adicionar biblioteca dependente é exibida.
- Pode select uma biblioteca existente ou carregar uma biblioteca nova.
- Você só pode usar bibliotecas armazenadas em um local suportado por suas configurações de computação. Consulte Suporte à biblioteca Python.
- Cada fonte de biblioteca tem um fluxo diferente para selecionar ou carregar uma biblioteca. Consulte Bibliotecas.
Finalizar a configuração do trabalho
- (Opcional) Configure Parameters como pares chave-valor que podem ser acessados no notebook usando
dbutils.widgets
. Consulte Configurar tarefa parameters. - Clique em Salvar tarefa.
Limitações
A saída total das células do bloco de notas (a saída combinada de todas as células do bloco de notas) está sujeita a um limite de tamanho de 20 MB limit. Além disso, a saída de célula individual está sujeita a um tamanho de 8 MB limit. Se a saída total da célula exceder 20 MB de tamanho, ou se a saída de uma célula individual for maior que 8 MB, a execução será cancelada e marcada como falha.
Se precisar de ajuda para localizar células próximas ou além do limit, execute o notebook num cluster de utilização geral e utilize esta técnica de salvamento automático do notebook .