Compartilhar via


Conectar ao ADLS e transformar os dados com o Azure Databricks

Neste guia, você vai:

  • Crie uma tabela Delta em sua conta do Azure Data Lake Storage (ADLS) Gen2 usando o Azure Databricks.

  • Crie um atalho do OneLake para uma tabela Delta no ADLS.

  • Use o Power BI para analisar dados por meio do atalho do ADLS.

Pré-requisitos

Antes de começar, você deve ter:

  • Um workspace com um item do Lakehouse

  • Um workspace do Azure Databricks

  • Uma conta do ADLS Gen2 para armazenar tabelas Delta

Criar uma tabela Delta, criar um atalho e analisar os dados

  1. Usando o notebook do Azure Databricks, crie uma tabela Delta na conta do ADLS Gen2.

     # Replace the path below to refer to your sample parquet data with this syntax "abfss://<storage name>@<container name>.dfs.core.windows.net/<filepath>"
    
     # Read Parquet files from an ADLS account
     df = spark.read.format('Parquet').load("abfss://datasetsv1@olsdemo.dfs.core.windows.net/demo/full/dimension_city/")
    
     # Write Delta tables to ADLS account
     df.write.mode("overwrite").format("delta").save("abfss://datasetsv1@olsdemo.dfs.core.windows.net/demo/adb_dim_city_delta/")
    
  2. Em seu Lakehouse, selecione as reticências (...) próximo de Tabelas e, em seguida, selecione Novo atalho.

    Captura de tela mostrando a localização de Novo Atalho em Tabelas.

  3. Na tela Novo atalho, selecione o bloco Azure Data Lake Storage Gen2.

    Captura de tela das opções de blocos na tela Novo atalho.

  4. Especifique os detalhes da conexão para o atalho e selecione Avançar.

    Captura de tela mostrando onde inserir as configurações de conexão de um novo atalho.

  5. Especifique os detalhes do atalho. Forneça um Nome de atalho e detalhes do Subcaminho e clique em Criar. O subcaminho deve apontar para o diretório em que reside a tabela Delta.

    Captura de tela mostrando onde inserir os detalhes do novo atalho.

  6. O atalho aparece como uma tabela Delta em Tabelas.

    Captura de tela mostrando o local do atalho ADLS recém-criado.

  7. Agora você pode consultar esses dados diretamente de um notebook.

    df = spark.sql("SELECT * FROM lakehouse1.adls_shortcut_adb_dim_city_delta LIMIT 1000")
    display(df)
    
  8. Para acessar e analisar essa tabela Delta por meio do Power BI, selecione Novo modelo semântico do Power BI.

    Captura de tela mostrando como criar um novo modelo semântico do Power BI.

  9. Selecione o atalho e selecione Confirmar.

    Captura de tela mostrando a nova configuração do modelo semântico.

  10. Quando os dados forem publicados, selecione Iniciar do zero.

    Captura de tela mostrando o processo de configuração de um conjunto de dados.

  11. Na experiência de criação de relatório, os dados de atalho aparecem como uma tabela junto a todos os seus atributos.

    Captura de tela mostrando a experiência de criação e os atributos da tabela.

  12. Arraste os atributos para o painel no lado esquerdo para criar um relatório do Power BI.

    Captura de tela mostrando dados sendo consultados por meio do relatório do Power BI.