Partilhar via


Configurar e editar trabalhos do Databricks

Este artigo se concentra em instruções para criar, configurar e editar trabalhos usando a interface do usuário do espaço de trabalho Fluxos de trabalho. O Azure Databricks tem outros pontos de entrada e ferramentas para configuração, incluindo o seguinte:

  • Para saber mais sobre como usar a CLI do Databricks para criar e executar trabalhos, consulte O que é a CLI do Databricks?.
  • Para saber mais sobre como usar a API de Trabalhos para criar e executar trabalhos, consulte Trabalhos na referência da API REST.
  • Para saber como executar e agendar trabalhos diretamente em um bloco de anotações Databricks, consulte Criar e gerenciar trabalhos agendados do bloco de anotações.

Gorjeta

Para exibir um trabalho como YAML, clique no menu kebab à esquerda de Executar agora para o trabalho e, em seguida, clique em Alternar para a versão de código (YAML).

Criar uma nova tarefa

Esta seção descreve a configuração mínima necessária para criar um novo trabalho para agendar uma tarefa de bloco de anotações com a interface do usuário do espaço de trabalho.

Os trabalhos contêm uma ou mais tarefas. Você cria um novo trabalho configurando a primeira tarefa para esse trabalho.

Nota

Cada tipo de tarefa tem opções de configuração dinâmica na interface do usuário do espaço de trabalho. Consulte Configurar e editar tarefas do Databricks.

  1. Clique em Ícone Fluxos de TrabalhoFluxos de trabalho na barra lateral e clique em .Botão Criar Trabalho
  2. Insira um nome de tarefa.
  3. Select um bloco de anotações para o campo do Caminho .
  4. Clique em Criar tarefa.

Se o espaço de trabalho não estiver habilitado para computação sem servidor para trabalhos, você deverá select uma opção de computação. O Databricks recomenda sempre usar a computação de trabalhos ao configurar tarefas.

Um novo trabalho com o nome padrão New Job <date> <time>aparece nos trabalhos do espaço de trabalho list.

Select um trabalho para editar no espaço de trabalho

Para editar um trabalho existente com a interface do usuário do espaço de trabalho, faça o seguinte:

  1. Clique em Ícone Fluxos de TrabalhoFluxos de trabalho na barra lateral.
  2. No Nomecolumn, clique no nome da tarefa.

Use a interface do usuário de trabalhos para fazer o seguinte:

  • Editar configurações de trabalho
  • Renomear, clonar ou excluir um trabalho
  • Adicionar novas tarefas a um trabalho existente
  • Editar configurações de tarefas

Nota

Você também pode ver as definições JSON para uso com a API REST: endpoints get, , criar, e reset.

Editar configurações de trabalho

O painel lateral contém os detalhes do trabalho. Você pode alterar o gatilho de trabalho, a configuração de computação, as notificações, o número máximo de execuções simultâneas, configurar limites de duração e adicionar ou alterar tags. Você também pode editar permissões de trabalho se o controle de acesso ao trabalho estiver habilitado.

Adicionar parameters para todas as tarefas de trabalho

Parameters configurados no nível do trabalho são passados para as tarefas do trabalho que aceitam parameterschave-valor , incluindo arquivos de roda Python configurados para aceitar argumentos de palavra-chave. Consulte Parametrizar trabalhos.

Adicionar tags a um trabalho

Para adicionar rótulos ou atributos de chave-valor ao seu trabalho, você pode adicionar tags ao editá-lo. Você pode usar etiquetas para filtrar empregos no Jobs list. Por exemplo, você pode usar uma department tag para filtrar todos os trabalhos que pertencem a um departamento específico.

Nota

Como as tags de trabalho não são projetadas para armazenar informações confidenciais, como informações de identificação pessoal ou senhas, o Databricks recomenda o uso de tags apenas para values não confidenciais.

As tags também se propagam para clusters de trabalho criados quando um trabalho é executado, permitindo que você use tags com o monitoramento de cluster existente.

Clique em + Marcar no painel lateral Detalhes do trabalho para adicionar ou editar tags. Você pode adicionar a tag como um par rótulo ou chave-valor. Para adicionar um rótulo, insira o rótulo no campo Chave e deixe o campo Valor vazio.

Adicionar uma política de orçamento a um trabalho

Importante

Este recurso está em Public Preview.

Se seu espaço de trabalho usa políticas de orçamento para atribuir o uso sem servidor, você pode a política de orçamento de seus trabalhos usando a configuração de de política de orçamento no painel lateral Detalhes do trabalho. Consulte Atributo de uso sem servidor com políticas de orçamento.

Renomear, clonar ou excluir um trabalho

Para renomear um trabalho, vá para a interface do usuário de trabalhos e clique no nome do trabalho.

Você pode criar rapidamente um novo trabalho clonando um trabalho existente. A clonagem de um trabalho cria uma cópia idêntica do trabalho, exceto para a ID do trabalho. Para clonar um trabalho, faça o seguinte:

  1. Vá para a interface do usuário de trabalhos para o trabalho.
  2. Clique ao Menu de kebab lado do botão Executar agora .
  3. Select Clonar a partir do menu suspenso.
  4. Insira um nome para o trabalho clonado.
  5. Clique em Clonar.

Excluir um trabalho

Para excluir um trabalho, vá para a página do trabalho, clique no menu Kebab ao lado do nome do trabalho e selectExcluir trabalho do menu suspenso.

Usar o Git com trabalhos

Se o seu trabalho contiver tarefas que ofereçam suporte ao uso de um provedor Git remoto, a interface do usuário do trabalho conterá um campo Git e a opção de adicionar ou editar configurações do Git.

Você pode configurar os seguintes tipos de tarefa para usar um repositório Git remoto:

  • Notebooks
  • Scripts do Python
  • Arquivos SQL
  • DBT

Todas as tarefas em um trabalho devem fazer referência à mesma confirmação no repositório remoto. Você deve especificar apenas uma das seguintes opções para um trabalho que usa um repositório remoto:

  • ramo: O nome do ramo, por exemplo, main.
  • tag: o nome da tag, por exemplo, release-1.0.0.
  • commit: o hash de uma confirmação específica, por exemplo, e0056d01.

Quando uma execução de trabalho começa, o Databricks tira uma confirmação de instantâneo do repositório remoto para garantir que toda a tarefa seja executada na mesma versão do código.

Quando você visualiza o histórico de execução de uma tarefa que executa código armazenado em um repositório Git remoto, o painel Detalhes da execução da tarefa inclui detalhes do Git, incluindo o SHA de confirmação associado à execução. Consulte Ver histórico de execução de tarefas.

Nota

As tarefas configuradas para usar um repositório Git remoto não podem gravar em arquivos de espaço de trabalho. Essas tarefas devem gravar dados temporários em armazenamento efêmero anexado ao nó do driver da computação configurada para executar a tarefa e dados persistentes em um volume ou table.

O Databricks recomenda referenciar caminhos de espaço de trabalho em pastas Git apenas para iteração e teste rápidos durante o desenvolvimento. À medida que você move trabalhos para preparação e produção, o Databricks recomenda configurá-los para fazer referência a um repositório Git remoto. Para saber mais sobre como usar um repositório Git remoto com um trabalho Databricks, consulte a seção a seguir.

Configurar um provedor Git

A interface do usuário de trabalhos tem uma caixa de diálogo para configurar um repositório Git remoto. Esta caixa de diálogo pode ser acessada a partir do painel Detalhes do trabalho sob o título Git ou em qualquer tarefa configurada para usar um provedor Git.

As opções exibidas para acessar a caixa de diálogo variam de acordo com o tipo de tarefa e se uma referência git já foi configurada para o trabalho. Os botões para iniciar a caixa de diálogo incluem Adicionar configurações do Git, Editar ou Adicionar uma referência do git.

Na caixa de diálogo Informações do Git (apenas rotulada como Git se for acessada pelo painel Detalhes do trabalho), insira os seguintes detalhes:

  • A URL do repositório Git.
  • Select seu provedor Git no listsuspenso .
  • No campo de referência do Git, insira o identifier de uma ramificação, tag ou confirmação que corresponda à versão do código-fonte que você deseja executar.
  • Select ramificação, marcarou confirmar a partir da lista suspensa.

Nota

A caixa de diálogo pode solicitar o seguinte: credentials Git para esta conta estão faltando. Adicionar credentials. Você deve configurar um repositório Git remoto antes de usá-lo como referência. Consulte as pastas Git (Repositórios) do Databricks Set.

Configurar limites para a duração da execução de tarefas ou métricas de acumulação de streaming

Importante

A observabilidade de streaming para trabalhos do Databricks está em visualização pública .

Pode configurar limites opcionais para a duração da execução de trabalhos ou para métricas de atraso de streaming. Para configurar limites de duração ou de métricas de streaming, clique em Limites de duração e lista de pendências de streaming no painel Detalhes do trabalho.

Para configurar os limites de duração do trabalho, incluindo os tempos esperados e máximos de conclusão para o trabalho, selecione selectDuração de execução no menu suspenso Métrica. Insira uma duração no campo Aviso para configurar o tempo esperado de conclusão do trabalho. Se o trabalho exceder esse limite, um evento será acionado. Você pode usar esse evento para notificar quando um trabalho está sendo executado lentamente. Consulte Configurar notificações para trabalhos lentos. Para configurar um tempo máximo de conclusão de um trabalho, insira a duração máxima no campo Tempo limite . Se o trabalho não for concluído nesse período, o Azure Databricks definirá seu status como "Tempo Limite".

Para configurar um limite para uma métrica de lista de pendências de streaming, select a métrica no menu suspenso Métrica e insira um valor para o limite. Para saber mais sobre as métricas específicas suportadas por uma fonte de streaming, consulte Exibir métricas para tarefas de streaming.

Se um evento for acionado porque um limite é excedido, você pode usar o evento para enviar uma notificação. Consulte Configurar notificações para trabalhos lentos.

Opcionalmente, você pode especificar limites de duração para tarefas. Consulte Configurar os limiares para a duração da execução da tarefa ou as métricas de atraso de transmissão.