Partilhar via


Cópia rápida em Dataflows Gen2

Este artigo descreve o recurso de cópia rápida no Dataflows Gen2 for Data Factory no Microsoft Fabric. Os fluxos de dados ajudam na ingestão e transformação de dados. Com a introdução do dimensionamento do fluxo de dados com a computação SQL DW, você pode transformar seus dados em escala. No entanto, seus dados precisam ser ingeridos primeiro. Com a introdução da cópia rápida, você pode ingerir terabytes de dados com a experiência fácil de fluxos de dados, mas com o back-end escalável da atividade de cópia do pipeline.

Depois de habilitar esse recurso, os fluxos de dados alternam automaticamente o back-end quando o tamanho dos dados excede um limite específico, sem a necessidade de alterar nada durante a criação dos fluxos de dados. Após a atualização de um fluxo de dados, você pode verificar no histórico de atualizações para ver se a cópia rápida foi usada durante a execução, observando o tipo de mecanismo que aparece lá.

Com a opção Exigir cópia rápida ativada, a atualização do fluxo de dados será cancelada se a cópia rápida não for usada. Isso ajuda a evitar esperar que um tempo limite de atualização continue. Esse comportamento também pode ser útil em uma sessão de depuração para testar o comportamento do fluxo de dados com seus dados enquanto reduz o tempo de espera. Usando os indicadores de cópia rápida no painel de etapas de consulta, você pode verificar facilmente se sua consulta pode ser executada com cópia rápida.

Captura de tela mostrando onde o indicador de cópia rápida aparece no painel de etapas de consulta.

Pré-requisitos

  • Você deve ter uma capacidade de malha.
  • Para dados de arquivo, os arquivos estão em formato .csv ou parquet de pelo menos 100 MB e armazenados em uma conta de armazenamento do Azure Data Lake (ADLS) Gen2 ou Blob.
  • Para banco de dados, incluindo Banco de Dados SQL do Azure e PostgreSQL, 5 milhões de linhas ou mais de dados na fonte de dados.

Nota

Você pode ignorar o limite para forçar a cópia rápida selecionando a configuração "Exigir cópia rápida".

Suporte de conector

Atualmente, a cópia rápida é suportada para os seguintes conectores Dataflow Gen2:

  • ADLS Gen2
  • Armazenamento de Blobs
  • BD SQL do Azure
  • Casa do Lago
  • PostgreSQL
  • SQL Server local
  • Armazém
  • Oracle
  • Snowflake

A atividade de cópia suporta apenas algumas transformações ao se conectar a uma fonte de arquivo:

  • Combinar ficheiros
  • Selecionar colunas
  • Alterar tipos de dados
  • Renomear uma coluna
  • Remover uma coluna

Você ainda pode aplicar outras transformações dividindo as etapas de ingestão e transformação em consultas separadas. A primeira consulta realmente recupera os dados e a segunda consulta faz referência aos seus resultados para que a computação DW possa ser usada. Para fontes SQL, qualquer transformação que faça parte da consulta nativa é suportada.

Quando você carrega diretamente a consulta para um destino de saída, apenas os destinos Lakehouse são suportados atualmente. Se quiser usar outro destino de saída, você pode preparar a consulta primeiro e fazer referência a ela depois.

Como usar cópia rápida

  1. Navegue até o ponto de extremidade de malha apropriado.

  2. Navegue até um espaço de trabalho premium e crie um fluxo de dados Gen2.

  3. Na guia Página Inicial do novo fluxo de dados, selecione Opções:

    Captura de tela mostrando onde selecionar Opções para Fluxos de Dados Gen2 na guia Página Inicial.

  4. Em seguida, escolha a guia Escala na caixa de diálogo Opções e marque a caixa de seleção Permitir o uso de conectores de cópia rápida para ativar a cópia rápida. Em seguida, feche a caixa de diálogo Opções.

    Captura de ecrã a mostrar onde ativar a cópia rápida no separador Escala da caixa de diálogo Opções.

  5. Selecione Obter dados e, em seguida, escolha a fonte ADLS Gen2 e preencha os detalhes do seu contêiner.

  6. Use a funcionalidade Combinar arquivo .

    Captura de ecrã a mostrar a janela de dados da pasta Pré-visualizar com a opção Combinar realçada.

  7. Para garantir uma cópia rápida, aplique apenas as transformações listadas na seção Suporte ao conector deste artigo. Se você precisar aplicar mais transformações, prepare os dados primeiro e faça referência à consulta mais tarde. Faça outras transformações na consulta referenciada.

  8. (Opcional) Você pode definir a opção Exigir cópia rápida para a consulta clicando com o botão direito do mouse nela para selecionar e habilitar essa opção.

    Captura de ecrã a mostrar onde selecionar a opção Exigir cópia rápida no menu do botão direito do rato para uma consulta.

  9. (Opcional) Atualmente, você só pode configurar um Lakehouse como o destino de saída. Para qualquer outro destino, prepare a consulta e faça referência a ela posteriormente em outra consulta onde você pode enviar para qualquer fonte.

  10. Verifique os indicadores de cópia rápida para ver se a sua consulta pode ser executada com cópia rápida. Em caso afirmativo, o tipo Engine mostra CopyActivity.

    Captura de tela mostrando os detalhes de atualização indicando que o mecanismo CopyActivity do pipeline foi usado.

  11. Publique o fluxo de dados.

  12. Verifique após a atualização concluída para confirmar que a cópia rápida foi usada.

Como dividir sua consulta para aproveitar a cópia rápida

Para obter um desempenho ideal ao processar grandes volumes de dados com o Dataflow Gen2, use o recurso Fast Copy para primeiro carregar os dados em preparação e, em seguida, transformá-los em escala com a capacidade de processamento do SQL DW. Essa abordagem melhora significativamente o desempenho de ponta a ponta.

Para implementar isso, os indicadores do Fast Copy podem orientá-lo a dividir a consulta em duas partes: ingestão de dados para preparo e transformação em grande escala com computação SQL DW. Você é incentivado a delegar a maior parte da avaliação de uma consulta ao Fast Copy, o qual pode ser utilizado para importar os seus dados. Quando os indicadores do Fast Copy informam que as etapas restantes não podem ser executadas pelo Fast Copy, pode-se dividir o restante da consulta com a encenação habilitada.

Indicadores de diagnóstico por etapas

Indicador Ícone Descrição
Esta etapa será avaliada com cópia rápida O indicador Fast Copy informa que a consulta até esta etapa suporta cópia rápida.
Esta etapa não é suportada pelo de cópia rápida O indicador Fast Copy mostra que este passo não suporta Fast Copy.
Uma ou mais etapas da sua consulta não são suportadas pela consulta rápida O indicador Fast Copy mostra que alguns passos nesta consulta suportam Fast Copy, enquanto outros não. Para otimizar, divida a consulta: etapas amarelas (potencialmente suportadas pelo Fast Copy) e vermelhas (não suportadas).

Orientação passo a passo

Depois de concluir sua lógica de transformação de dados no Dataflow Gen2, o indicador Fast Copy avalia cada etapa para determinar quantas etapas podem aproveitar o Fast Copy para obter um melhor desempenho.

No exemplo abaixo, a última etapa mostra vermelho, indicando que a etapa com Group By não é suportada pelo Fast Copy. No entanto, todas as etapas anteriores mostrando amarelo podem ser potencialmente suportadas pelo Fast Copy.

Captura de ecrã a mostrar a primeira consulta.

Neste momento, se você publicar e executar diretamente seu Dataflow Gen2, ele não usará o mecanismo Fast Copy para carregar seus dados como a imagem abaixo:

Captura de tela mostrando o resultado sem cópia rápida habilitada.

Para usar o mecanismo Fast Copy e melhorar o desempenho do seu Dataflow Gen2, você pode dividir sua consulta em duas partes: ingestão de dados para preparo e transformação em grande escala com computação SQL DW, da seguinte forma:

  1. Remova as transformações (mostrando vermelho) que não são suportadas pelo Fast Copy, juntamente com o destino (se definido).

  2. O indicador Fast Copy agora mostra verde para as etapas restantes, o que significa que sua primeira consulta pode aproveitar o Fast Copy para obter um melhor desempenho.

    Selecione Ação para a(s) sua(s) primeira(s) consulta(s), e depois escolha Ativar Ensaios e Referência.

    Captura de ecrã a mostrar a segunda consulta.

  3. Em uma nova consulta referenciada, readicione a transformação "Agrupar por" e o destino (se aplicável).

    Captura de tela mostrando a terceira consulta.

  4. Publique e atualize seu Dataflow Gen2. Agora você verá duas consultas em seu Dataflow Gen2, e a duração total é amplamente reduzida.

    • A primeira consulta ingere dados em estágio usando Fast Copy.

    • A segunda consulta executa transformações em grande escala usando a computação SQL DW.

      Captura de tela mostrando o resultado da consulta.

    A primeira consulta:

    Captura de tela mostrando o resultado da ingestão.

    A segunda consulta:

    Captura de tela mostrando o resultado da transformação.

Limitações conhecidas

  1. É necessário um gateway de dados local versão 3000.214.2 ou mais recente para suportar o Fast Copy.
  2. O gateway VNet não é suportado.
  3. Não há suporte para gravação de dados em uma tabela existente no Lakehouse.
  4. Não há suporte para esquema fixo.