Cópia rápida em Dataflows Gen2

Artigo
12/18/2024

Este artigo descreve o recurso de cópia rápida no Dataflows Gen2 for Data Factory no Microsoft Fabric. Os fluxos de dados ajudam na ingestão e transformação de dados. Com a introdução do dimensionamento do fluxo de dados com a computação SQL DW, você pode transformar seus dados em escala. No entanto, seus dados precisam ser ingeridos primeiro. Com a introdução da cópia rápida, você pode ingerir terabytes de dados com a experiência fácil de fluxos de dados, mas com o back-end escalável da atividade de cópia do pipeline.

Depois de habilitar esse recurso, os fluxos de dados alternam automaticamente o back-end quando o tamanho dos dados excede um limite específico, sem a necessidade de alterar nada durante a criação dos fluxos de dados. Após a atualização de um fluxo de dados, você pode verificar no histórico de atualizações para ver se a cópia rápida foi usada durante a execução, observando o tipo de mecanismo que aparece lá.

Com a opção Exigir cópia rápida ativada, a atualização do fluxo de dados será cancelada se a cópia rápida não for usada. Isso ajuda a evitar esperar que um tempo limite de atualização continue. Esse comportamento também pode ser útil em uma sessão de depuração para testar o comportamento do fluxo de dados com seus dados enquanto reduz o tempo de espera. Usando os indicadores de cópia rápida no painel de etapas de consulta, você pode verificar facilmente se sua consulta pode ser executada com cópia rápida.

Captura de tela mostrando onde o indicador de cópia rápida aparece no painel de etapas de consulta.

Pré-requisitos

Você deve ter uma capacidade de malha.
Para dados de arquivo, os arquivos estão em formato .csv ou parquet de pelo menos 100 MB e armazenados em uma conta de armazenamento do Azure Data Lake (ADLS) Gen2 ou Blob.
Para banco de dados, incluindo Banco de Dados SQL do Azure e PostgreSQL, 5 milhões de linhas ou mais de dados na fonte de dados.

Nota

Você pode ignorar o limite para forçar a cópia rápida selecionando a configuração "Exigir cópia rápida".

Suporte de conector

Atualmente, a cópia rápida é suportada para os seguintes conectores Dataflow Gen2:

ADLS Gen2
Armazenamento de Blobs
BD SQL do Azure
Casa do Lago
PostgreSQL
SQL Server local
Armazém
Oracle
Snowflake

A atividade de cópia suporta apenas algumas transformações ao se conectar a uma fonte de arquivo:

Combinar ficheiros
Selecionar colunas
Alterar tipos de dados
Renomear uma coluna
Remover uma coluna

Você ainda pode aplicar outras transformações dividindo as etapas de ingestão e transformação em consultas separadas. A primeira consulta realmente recupera os dados e a segunda consulta faz referência aos seus resultados para que a computação DW possa ser usada. Para fontes SQL, qualquer transformação que faça parte da consulta nativa é suportada.

Quando você carrega diretamente a consulta para um destino de saída, apenas os destinos Lakehouse são suportados atualmente. Se quiser usar outro destino de saída, você pode preparar a consulta primeiro e fazer referência a ela depois.

Como usar cópia rápida

Navegue até o ponto de extremidade de malha apropriado.
Navegue até um espaço de trabalho premium e crie um fluxo de dados Gen2.
Na guia Página Inicial do novo fluxo de dados, selecione Opções:
Em seguida, escolha a guia Escala na caixa de diálogo Opções e marque a caixa de seleção Permitir o uso de conectores de cópia rápida para ativar a cópia rápida. Em seguida, feche a caixa de diálogo Opções.
Selecione Obter dados e, em seguida, escolha a fonte ADLS Gen2 e preencha os detalhes do seu contêiner.
Use a funcionalidade Combinar arquivo .
Para garantir uma cópia rápida, aplique apenas as transformações listadas na seção Suporte ao conector deste artigo. Se você precisar aplicar mais transformações, prepare os dados primeiro e faça referência à consulta mais tarde. Faça outras transformações na consulta referenciada.
(Opcional) Você pode definir a opção Exigir cópia rápida para a consulta clicando com o botão direito do mouse nela para selecionar e habilitar essa opção.
(Opcional) Atualmente, você só pode configurar um Lakehouse como o destino de saída. Para qualquer outro destino, prepare a consulta e faça referência a ela posteriormente em outra consulta onde você pode enviar para qualquer fonte.
Verifique os indicadores de cópia rápida para ver se a sua consulta pode ser executada com cópia rápida. Em caso afirmativo, o tipo Engine mostra CopyActivity.
Publique o fluxo de dados.
Verifique após a atualização concluída para confirmar que a cópia rápida foi usada.

Como dividir sua consulta para aproveitar a cópia rápida

Para obter um desempenho ideal ao processar grandes volumes de dados com o Dataflow Gen2, use o recurso Fast Copy para primeiro carregar os dados em preparação e, em seguida, transformá-los em escala com a capacidade de processamento do SQL DW. Essa abordagem melhora significativamente o desempenho de ponta a ponta.

Para implementar isso, os indicadores do Fast Copy podem orientá-lo a dividir a consulta em duas partes: ingestão de dados para preparo e transformação em grande escala com computação SQL DW. Você é incentivado a delegar a maior parte da avaliação de uma consulta ao Fast Copy, o qual pode ser utilizado para importar os seus dados. Quando os indicadores do Fast Copy informam que as etapas restantes não podem ser executadas pelo Fast Copy, pode-se dividir o restante da consulta com a encenação habilitada.

Indicadores de diagnóstico por etapas

Indicador	Ícone	Descrição
Esta etapa será avaliada com cópia rápida		O indicador Fast Copy informa que a consulta até esta etapa suporta cópia rápida.
Esta etapa não é suportada pelo de cópia rápida		O indicador Fast Copy mostra que este passo não suporta Fast Copy.
Uma ou mais etapas da sua consulta não são suportadas pela consulta rápida		O indicador Fast Copy mostra que alguns passos nesta consulta suportam Fast Copy, enquanto outros não. Para otimizar, divida a consulta: etapas amarelas (potencialmente suportadas pelo Fast Copy) e vermelhas (não suportadas).

Orientação passo a passo

Depois de concluir sua lógica de transformação de dados no Dataflow Gen2, o indicador Fast Copy avalia cada etapa para determinar quantas etapas podem aproveitar o Fast Copy para obter um melhor desempenho.

No exemplo abaixo, a última etapa mostra vermelho, indicando que a etapa com Group By não é suportada pelo Fast Copy. No entanto, todas as etapas anteriores mostrando amarelo podem ser potencialmente suportadas pelo Fast Copy.

Captura de ecrã a mostrar a primeira consulta.

Neste momento, se você publicar e executar diretamente seu Dataflow Gen2, ele não usará o mecanismo Fast Copy para carregar seus dados como a imagem abaixo:

Captura de tela mostrando o resultado sem cópia rápida habilitada.

Para usar o mecanismo Fast Copy e melhorar o desempenho do seu Dataflow Gen2, você pode dividir sua consulta em duas partes: ingestão de dados para preparo e transformação em grande escala com computação SQL DW, da seguinte forma:

Remova as transformações (mostrando vermelho) que não são suportadas pelo Fast Copy, juntamente com o destino (se definido).
O indicador Fast Copy agora mostra verde para as etapas restantes, o que significa que sua primeira consulta pode aproveitar o Fast Copy para obter um melhor desempenho.

Selecione Ação para a(s) sua(s) primeira(s) consulta(s), e depois escolha Ativar Ensaios e Referência.
Em uma nova consulta referenciada, readicione a transformação "Agrupar por" e o destino (se aplicável).
Publique e atualize seu Dataflow Gen2. Agora você verá duas consultas em seu Dataflow Gen2, e a duração total é amplamente reduzida.
- A primeira consulta ingere dados em estágio usando Fast Copy.
- A segunda consulta executa transformações em grande escala usando a computação SQL DW.
A primeira consulta:

A segunda consulta:

Limitações conhecidas

É necessário um gateway de dados local versão 3000.214.2 ou mais recente para suportar o Fast Copy.
O gateway VNet não é suportado.
Não há suporte para gravação de dados em uma tabela existente no Lakehouse.
Não há suporte para esquema fixo.

Partilhar via

Cópia rápida em Dataflows Gen2

Pré-requisitos

Suporte de conector

Como usar cópia rápida

Como dividir sua consulta para aproveitar a cópia rápida

Indicadores de diagnóstico por etapas

Orientação passo a passo

Limitações conhecidas

Comentários

Recursos adicionais

Partilhar via

Cópia rápida em Dataflows Gen2

Pré-requisitos

Suporte de conector

Como usar cópia rápida

Como dividir sua consulta para aproveitar a cópia rápida

Indicadores de diagnóstico por etapas

Orientação passo a passo

Limitações conhecidas

Conteúdos relacionados

Comentários

Recursos adicionais