Compartilhar via


Carregar dados no Azure Data Lake Storage Gen1, usando o Azure Data Factory

APLICA-SE A: Azure Data Factory Azure Synapse Analytics

Dica

Experimente o Data Factory no Microsoft Fabric, uma solução de análise tudo-em-um para empresas. O Microsoft Fabric abrange desde movimentação de dados até ciência de dados, análise em tempo real, business intelligence e relatórios. Saiba como iniciar uma avaliação gratuita!

O Azure Data Lake Storage Gen1 (conhecido anteriormente como Azure Data Lake Store) é um repositório de hiperescala que abrange toda a empresa para cargas de trabalho analíticas de big data. O Data Lake Storage Gen1 permite que você capture dados de qualquer tamanho, tipo e velocidade de ingestão. Os dados são capturados em um único local para análise operacional e exploratória.

O Azure Data Factory é um serviço de integração de dados baseado em nuvem completamente gerenciado. Você pode usar o serviço para preencher o lago com dados do sistema existente e economizar tempo ao criar soluções de análise.

O Azure Data Factory oferece os seguintes benefícios para carregar dados no Data Lake Storage Gen1:

  • Fácil de configurar: um assistente intuitivo de cinco etapas sem necessidade de script.
  • Suporte avançado de armazenamento de dados: suporte interno para um conjunto avançado de armazenamentos de dados locais e baseados em nuvem. Para obter uma lista detalhada, consulte a tabela de Suporte para repositórios de dados.
  • Seguro e em conformidade: os dados são transferidos via HTTPS ou ExpressRoute. A presença do serviço global garante que os dados nunca saiam do limite geográfico.
  • Alto desempenho: velocidade de carregamento de dados de até 1 GB/s no Data Lake Storage Gen1. Para obter detalhes, consulte Desempenho da atividade de cópia.

Este artigo mostra como usar a ferramenta Copiar Dados do Data Factory para carregar dados do Amazon S3 no Data Lake Storage Gen1. Você pode seguir as etapas semelhantes para copiar dados de outros tipos de armazenamentos de dados.

Pré-requisitos

  • Assinatura do Azure: Se você não tiver uma assinatura do Azure, crie uma conta gratuita antes de começar.
  • Conta do Data Lake Storage Gen1: se você não tem uma conta do Data Lake Storage Gen1, confira as instruções em Criar uma conta do Data Lake Storage Gen1.
  • Amazon S3: Este artigo mostra como copiar dados do Amazon S3. Você pode usar outros repositórios de dados seguindo as etapas semelhantes.

Criar uma data factory

  1. Se você ainda não criou o data factory, siga as etapas no Início Rápido: crie um data factory usando o portal do Azure e o Estúdio do Azure Data Factory para criar um. Depois de criá-lo, navegue até o data factory no portal do Azure.

    Home page do Azure Data Factory, com o bloco Abrir Azure Data Factory Studio.

  2. Selecione Abrir no bloco Abrir Estúdio do Azure Data Factory para iniciar o aplicativo Data Integration em uma guia separada.

Carregar dados no Data Lake Storage Gen1

  1. Na página inicial, selecione o bloco Ingerir para a inicialização da ferramenta Copiar Dados:

    Captura de tela que mostra a página inicial do ADF.

  2. Na página Propriedades, especifique Copy Data, especifique CopyFromAmazonS3ToADLS para o campo Nome da tarefa e clique em Avançar:

    Página Propriedades

  3. Na página Armazenamento de dados de origem, selecione + Criar conexão:

    Página Armazenamento de dados de origem

    Selecione Amazon S3 e Continuar

    Página Armazenamento de dados de origem s3

  4. Na página Especificar conexão Amazon S3, faça o seguinte:

    1. Especifique o valor da ID da chave de acesso.

    2. Especifique o valor da chave de acesso secreta.

    3. Selecione Concluir.

      A captura de tela mostra o painel Novo Serviço Vinculado, em que você pode inserir valores.

    4. Você verá uma nova conexão. Selecione Avançar.

    A captura de tela mostra sua nova conexão.

  5. Na página Escolher arquivo de entrada ou pasta página, navegue até a pasta e o arquivo que você deseja copiar. Selecione a pasta/arquivo, selecione Escolhere, em seguida, selecione Avançar:

    Escolha a pasta ou arquivo de entrada

  6. Escolha o comportamento de cópia marcando as opções Copiar arquivos recursivamente e Cópia binária (copiar arquivos como-são). Selecione Avançar:

    A captura de tela mostra Escolher arquivo de entrada ou pasta, em que você pode selecionar Copiar arquivo recursivamente e Cópia Binária.

  7. Na pagina Armazenamento de dados de destino, selecione + Criar conexão e, em seguida, selecione Azure Data Lake Storage Gen1 e depois Continuar:

    Página Armazenamento de dados de destino

  8. Na página Novo Serviço Vinculado (Azure Data Lake Storage Gen1) , execute as seguintes etapas:

    1. Selecione sua conta do Data Lake Storage Gen1 para o nome da conta do Data Lake Store.
    2. Especifique o Locatário e selecione Concluir.
    3. Selecione Avançar.

    Importante

    Neste passo a passo, você deve usar uma identidade gerenciada para recursos do Azure para autenticar a conta do Data Lake Storage Gen1. Verifique se você concedeu as permissões corretas no Data Lake Store Gen1 ao MSI seguindo estas instruções.

    Especifique a conta do Data Lake Storage Gen1

  9. Em Escolher o arquivo de saída ou pasta insira copyfroms3 como o nome da pasta de saída e selecione Avançar:

    A captura de tela mostra o caminho de pasta que você inseriu.

  10. Na página Configurações, selecione Avançar:

    Página Configurações

  11. Na página Resumo, examine as configurações e selecione Avançar:

    Página Resumo

  12. Na Página Implantação, selecione Monitor para monitorar o pipeline (tarefa):

    Página Implantação

  13. Observe que a guia Monitor à esquerda é selecionada automaticamente. A coluna Ações inclui links para exibir detalhes da execução da atividade e executar o pipeline novamente:

    Monitorar execuções de pipeline

  14. Para exibir as execuções de atividade associadas com a execução do pipeline, selecione o link Exibir as Execuções de Atividade na coluna Ações. Há apenas uma atividade (atividade de cópia) no pipeline. Assim, você vê apenas uma entrada. Para voltar à exibição de execuções de pipeline, selecione o link Pipelines na parte superior. Selecione Atualizar para atualizar a lista.

    Monitorar execuções de atividade

  15. Para monitorar os detalhes de execução de cada atividade de cópia, selecione o link Detalhes em Ações no modo de exibição de monitoramento de atividades. Você pode monitorar detalhes como o volume de dados copiados da fonte para o coletor, taxa de transferência de dados, etapas de execução com duração correspondente e configurações usadas:

    Monitorar detalhes da execução da atividade

  16. Verifique se os dados são copiados para a conta do Data Lake Storage Gen1:

    Verifique a saída do Data Lake Storage Gen1

Confira o seguinte artigo para saber mais sobre o suporte do Data Lake Storage Gen1: