Entender o fluxo de controle do data factory

Concluído

O que é o fluxo de controle

O fluxo de controle é uma orquestração de atividades do pipeline que inclui o encadeamento de atividades em uma sequência, ramificação, definindo parâmetros no nível do pipeline e passando argumentos durante a invocação do pipeline sob demanda ou por meio de um gatilho.

O fluxo de controle também pode incluir contêineres de looping, que podem passar informações para cada iteração do contêiner de looping.

Se um loop For Each for usado como uma atividade de fluxo de controle, o Azure Data Factory poderá iniciar várias atividades em paralelo usando essa abordagem. Isso permite que você crie uma lógica de processamento complexa e iterativa dentro dos pipelines criados com o Azure Data Factory, que dá suporte à criação de diversos padrões de integração de dados, como a criação de um data warehouse moderno.

Algumas das atividades comuns de fluxo de controle são descritas nas seções abaixo.

Encadeando atividades

Dentro do Azure Data Factory você pode encadear atividades em uma sequência dentro de um pipeline. É possível usar a propriedade dependsOn em uma definição de atividade para encadeá-la com uma atividade de upstream.

Atividades de ramificação

Use o Azure Data Factory para atividades de ramificação dentro de um pipeline. Um exemplo de uma atividade de ramificação é a atividade If-condition, que é semelhante a uma instrução if fornecida nas linguagens de programação. Uma atividade de ramificação avalia um conjunto de atividades e, quando a condição é avaliada como verdadeira, um conjunto de atividades é executado. Quando avaliada como falsa, um conjunto alternativo de atividades é executado.

Parâmetros

É possível definir parâmetros no nível do pipeline e passar argumentos enquanto você invoca o pipeline sob demanda ou de um gatilho. Em seguida, as atividades consomem os argumentos mantidos em um parâmetro conforme eles são passados para o pipeline.

Passagem de estado personalizada

A passagem de estado personalizado é possibilitada com o Azure Data Factory. A passagem de estado personalizado é uma atividade que criou a saída ou o estado da atividade que precisa ser consumida por uma atividade subsequente no pipeline. Um exemplo é que, em uma definição JSON de uma atividade, você pode acessar a saída da atividade anterior. Com a passagem de estado personalizado, você pode criar fluxos de trabalho em que os valores passam por atividades.

Contêineres de looping

O escopo de contêineres em loop do fluxo de controle, como a atividade ForEach, define a repetição em um pipeline. Ele permite que você Itere em uma coleção e executa atividades especificadas no loop definido. Ele funciona de modo semelhante à 'estrutura de looping for each' usada em linguagens de programação. Além de cada atividade, há uma atividade Until. Essa funcionalidade é semelhante à de um loop do-until usado na programação. O que ele faz é executar um conjunto de atividades (do) em um loop até que a condição (until) seja atendida.

Fluxos baseados em gatilhos

Pipelines podem ser disparados por sob demanda (baseado em evento, por exemplo, postagem de blob) ou hora do relógio.

Invocar um pipeline de outro pipeline

A atividade Execute Pipeline com o Azure Data Factory permite que um pipeline do Data Factory invoque outro pipeline.

Fluxos delta

Os casos de uso relacionados aos fluxos delta são cargas delta. As cargas delta em padrões de ETL carregarão apenas os dados que mudaram desde uma iteração anterior de um pipeline. Funcionalidades como atividade de pesquisa e agendamento flexível ajudam a lidar com trabalhos de carga delta. No caso de usar uma atividade Lookup, ela lerá ou pesquisará um valor de nome de tabela ou registro de qualquer fonte externa. Essa saída pode referenciada pelas atividades com êxito.

Outros fluxos de controle

Há muito mais atividades de fluxo de controle. Confira os seguintes itens para outras atividades úteis:

  • Atividade da Web: a atividade da Web no Azure Data Factory usando fluxos de controle pode chamar um ponto de extremidade REST personalizado de um pipeline do Data Factory. Os conjuntos de valores e os serviços vinculados podem ser passados para serem consumidos pela atividade.

  • Atividade Obter metadados: recupera os metadados de todos os dados no Azure Data Factory.