Compartilhar via


Tutorial do Lakehouse: Ingerir dados no Lakehouse

Neste tutorial, você ingere mais tabelas de fatos e dimensionais da Wide World Importers (WWI) no lakehouse.

Pré-requisitos

  • Caso você não tenha um lakehouse, crie um.

Ingestão de dados

Nesta seção, utilize a atividade Copiar dados do pipeline do Data Factory para ingerir dados de amostra de uma conta de armazenamento do Azure para a seção Arquivos do lakehouse criado anteriormente.

  1. Selecione Espaços de Trabalho no painel de navegação esquerdo e, em seguida, selecione o novo espaço de trabalho no menu Espaços de Trabalho. A exibição de itens do seu espaço de trabalho é exibida.

  2. No item de menu +Novo da faixa espaço de trabalho, selecione Pipeline de dados.

    Captura de tela mostrando como criar um novo pipeline de dados.

  3. Na caixa de diálogo Novo pipeline, especifique o nome como IngestDataFromSourceToLakehouse e selecione Criar. Um novo pipeline do data factory é criado e aberto.

  4. Em seguida, configure uma conexão HTTP para importar os dados de amostra do World Wide Importers para o Lakehouse. Na lista de Novas fontes, selecione Ver mais, pesquise Http e selecione-o.

    Captura de tela mostrando onde selecionar a fonte HTTP.

  5. Na janela Conectar à fonte de dados insira os detalhes da tabela abaixo e selecione Avançar.

    Propriedade Valor
    URL https://assetsprod.microsoft.com/en-us/wwi-sample-dataset.zip
    Conexão Crie uma nova conexão
    Nome da conexão wwisampledata
    Gateway de dados Nenhum
    Tipo de autenticação Anônima

    Captura de tela mostrando os parâmetros para configurar a conexão Http.

  6. Na próxima etapa, habilite a cópia binária e escolha ZipDeflate (.zip) como o tipo de compactação pois a origem é um arquivo .zip. Mantenha os outros campos com seus valores padrão e clique em Avançar.

    Captura de tela mostrando como escolher um tipo de compactação.

  7. Na janela Conectar-se ao destino de dados, especifique a pasta raiz como Arquivos e clique em Avançar. Isso gravará os dados na seção Arquivos do lakehouse.

    Captura de tela mostrando as configurações de conexão de destino do lakehouse.

  8. Escolha o Formato de arquivo como Binário para o destino. Clique em Avançar e depois em Salvar+Executar. Você pode agendar pipelines para atualizar dados periodicamente. Neste tutorial, executamos o pipeline apenas uma vez. O processo de cópia de dados leva aproximadamente 10 a 15 minutos para ser concluído.

    Captura de tela mostrando o formato do arquivo de destino.

  9. Você pode monitorar a execução e a atividade do pipeline na guia Saída. Você também pode visualizar informações detalhadas de transferência de dados selecionando o ícone de óculos ao lado do nome do pipeline, que aparece quando você passa o mouse sobre o nome.

    Captura de tela mostrando o status da atividade de pipeline de cópia.

  10. Após a execução bem-sucedida do pipeline, vá para o lakehouse (wwilakehouse) e abra o explorador para ver os dados importados.

    Captura de tela mostrando como navegar até o lakehouse.

  11. Verifique se a pasta WideWorldImportersDW está presente na exibição Explorer e contém dados de todas as tabelas.

    Captura de tela mostrando que os dados de origem foram copiados para o Lakehouse Explorer.

  12. Os dados são criados na seção Arquivos do explorador do lakehouse. Uma nova pasta com GUID contém todos os dados necessários. Renomeie o GUID para wwi-raw-data

Para carregar dados incrementais em um lakehouse, consulte Carregar dados de forma incremental de um data warehouse para um lakehouse.

Próxima etapa