Compartilhar via


Ingerir dados no OneLake e analisar com o Azure Databricks

Neste guia, você vai:

  • Crie um pipeline em um espaço de trabalho e ingerir dados no OneLake no formato Delta.

  • Leia e modifique uma tabela Delta no OneLake com o Azure Databricks.

Pré-requisitos

Antes de começar, você deve ter:

  • Um workspace com um item Lakehouse.

  • Um workspace premium do Azure Databricks. Somente os workspaces premium do Azure Databricks suportam a passagem de credenciais do Microsoft Entra. Ao criar o cluster, habilite a passagem de credencial no Azure Data Lake Storage nas Opções Avançadas.

  • Um conjunto de dados de exemplo

Ingerir dados e modificar a tabela Delta

  1. Navegue até seu lakehouse no serviço do Power BI, selecione Obter dados e selecione Novo pipeline de dados.

    Captura de tela mostrando como navegar para a nova opção de pipeline de dados na interface do usuário.

  2. No prompt do Novo Pipeline, insira um nome no novo pipeline e selecione Criar.

  3. Para este exercício, selecione o Táxi de NOVA YORK – Dados de exemplo verdes, como a fonte de dados e selecione Avançar.

    Captura de tela mostrando como selecionar o modelo semântico com amostra de Nova York.

  4. Na tela de visualização, selecione Avançar.

  5. Quanto ao destino dos dados, selecione o nome do lakehouse que deseja usar para armazenar os dados na tabela Delta do OneLake. Escolha um lakehouse existente ou criar um.

    Captura de tela mostrando como selecionar o lakehouse de destino.

  6. Selecione onde você quer armazenar a saída. Escolha Tabelas como a pasta Raiz e insira “nycsample” como o nome da tabela.

  7. Na tela Examinar + Salvar, selecione Iniciar transferência de dados imediatamente e selecioneSalvar + Executar.

    Captura de tela mostrando como inserir o nome da tabela.

  8. Após o trabalho ser concluído, navegue até o lakehouse e veja a tabela delta listada na pasta /Tables.

  9. Clique com o botão direito do mouse no nome da tabela criada, selecione Propriedades e copie o caminho do ABFS (Azure Blob Filesystem).

  10. Abra o notebook do seu Azure Databricks. Leia a tabela Delta no OneLake.

    olsPath = "abfss://<replace with workspace name>@onelake.dfs.fabric.microsoft.com/<replace with item name>.Lakehouse/Tables/nycsample" 
    df=spark.read.format('delta').option("inferSchema","true").load(olsPath)
    df.show(5)
    
  11. Atualize os dados da tabela Delta alterando um valor de campo.

    %sql
    update delta.`abfss://<replace with workspace name>@onelake.dfs.fabric.microsoft.com/<replace with item name>.Lakehouse/Tables/nycsample` set vendorID = 99999 where vendorID = 1;