Implementar fluxos de trabalho de processamento e análise de dados com Trabalhos

Artigo
10/07/2024

Pode usar um trabalho do Azure Databricks para orquestrar seu processamento de dados, aprendizado de máquina ou pipelines de análise de dados na plataforma Databricks. Os Trabalhos do Azure Databricks dão suporte para vários tipos de cargas de trabalho, incluindo notebooks, scripts, pipelines Tabelas Dinâmicas Delta, consultas SQL do Databricks e projetos dbt. Os seguintes artigos orientam você no uso dos recursos e opções de Trabalhos do Azure Databricks para implementar seus pipelines de dados.

Dica

Você pode usar os Pacotes de Ativos do Databricks para definir e gerenciar programaticamente seus trabalhos. Confira O que são Pacotes de Ativos do Databricks? e Desenvolver um trabalho no Azure Databricks usando pacotes de ativos do Databricks.

Transformar, analisar e visualizar seus dados com um trabalho do Azure Databricks

Pode utilizar um trabalho para criar um pipeline de dados que ingere, transforma, analisa e visualiza dados. O exemplo em Usar o SQL do Databricks em um trabalho do Azure Databricks constrói um pipeline que:

Usa um script Python para buscar dados usando uma API REST.
Usa Tabelas Dinâmicas Delta para ingerir e transformar os dados buscados e salvar os dados transformados no Delta Lake.
Usa a integração de Trabalhos com SQL do Databricks para analisar os dados transformados e criar grafos para visualizar os resultados.

Usar transformações dbt em um trabalho

Use o tipo de tarefa dbt se estiver fazendo transformação de dados com um projeto dbt core e quiser integrar esse projeto a um trabalho do Azure Databricks, ou criar novas transformações dbt e executar essas transformações em um trabalho. Confira Usar transformações dbt em um trabalho do Azure Databricks.

Usar um pacote Python em um trabalho

Arquivos wheel do Python são uma maneira padrão de empacotar e distribuir os arquivos necessários para executar um aplicativo Python. Pode facilmente criar um trabalho que utiliza o pacote de códigos Python como um arquivo wheel do Python com o tipo de tarefa Python wheel. Consulte Usar um arquivo wheel do Python em um trabalho do Azure Databricks.

Usar o pacote de códigos em um JAR

Bibliotecas e aplicações implementadas em uma linguagem JVM, como Java e Scala, são comumente empacotadas em um arquivo Java (JAR). Trabalhos do Azure Databricks dão suporte para código empacotado em um JAR com o tipo de tarefa JAR. Confira Usar um JAR em um trabalho do Azure Databricks.

Orquestrar seus trabalhos com o Apache Airflow

O Databricks recomenda usar Trabalhos do Azure Databricks para orquestrar seus fluxos de trabalho. No entanto, Apache Airflow é comumente usado como um sistema de orquestração de fluxo de trabalho e fornece suporte nativo para os Trabalhos do Azure Databricks. Enquanto Trabalhos do Azure Databricks fornece uma interface visual para criar seus fluxos de trabalho, o Airflow faz o uso de arquivos Python para definir e implantar seus pipelines de dados. Para um exemplo de criação e execução de um trabalho com o Airflow, confira Orquestrar trabalhos do Azure Databricks com Apache Airflow.

Executar um trabalho usando uma entidade de serviço

Execute seus trabalhos como uma conta de serviço usando um aplicativo do Microsoft Entra ID e uma entidade de serviço. Executar um trabalho como uma conta de serviço em vez de um usuário individual permite controlar o acesso ao trabalho, garantir que o trabalho tenha permissões necessárias e evitar problemas se um proprietário de trabalho for removido de um workspace. Para obter um tutorial sobre como criar e usar uma entidade de serviço para executar um trabalho do Azure Databricks, consulte Executar um trabalho com uma entidade de serviço do Microsoft Entra ID.

Compartilhar via