Ingerir dados no OneLake e analisar com o Azure Databricks

Artigo
07/29/2024

Neste guia, você vai:

Crie um pipeline em um espaço de trabalho e ingerir dados no OneLake no formato Delta.
Leia e modifique uma tabela Delta no OneLake com o Azure Databricks.

Pré-requisitos

Antes de começar, você deve ter:

Um workspace com um item Lakehouse.
Um workspace premium do Azure Databricks. Somente os workspaces premium do Azure Databricks suportam a passagem de credenciais do Microsoft Entra. Ao criar o cluster, habilite a passagem de credencial no Azure Data Lake Storage nas Opções Avançadas.
Um conjunto de dados de exemplo

Ingerir dados e modificar a tabela Delta

Navegue até seu lakehouse no serviço do Power BI, selecione Obter dados e selecione Novo pipeline de dados.
No prompt do Novo Pipeline, insira um nome no novo pipeline e selecione Criar.
Para este exercício, selecione o Táxi de NOVA YORK – Dados de exemplo verdes, como a fonte de dados e selecione Avançar.
Na tela de visualização, selecione Avançar.
Quanto ao destino dos dados, selecione o nome do lakehouse que deseja usar para armazenar os dados na tabela Delta do OneLake. Escolha um lakehouse existente ou criar um.
Selecione onde você quer armazenar a saída. Escolha Tabelas como a pasta Raiz e insira “nycsample” como o nome da tabela.
Na tela Examinar + Salvar, selecione Iniciar transferência de dados imediatamente e selecioneSalvar + Executar.
Após o trabalho ser concluído, navegue até o lakehouse e veja a tabela delta listada na pasta /Tables.
Clique com o botão direito do mouse no nome da tabela criada, selecione Propriedades e copie o caminho do ABFS (Azure Blob Filesystem).

Abra o notebook do seu Azure Databricks. Leia a tabela Delta no OneLake.

olsPath = "abfss://<replace with workspace name>@onelake.dfs.fabric.microsoft.com/<replace with item name>.Lakehouse/Tables/nycsample" 
df=spark.read.format('delta').option("inferSchema","true").load(olsPath)
df.show(5)

Atualize os dados da tabela Delta alterando um valor de campo.

%sql
update delta.`abfss://<replace with workspace name>@onelake.dfs.fabric.microsoft.com/<replace with item name>.Lakehouse/Tables/nycsample` set vendorID = 99999 where vendorID = 1;

Transformar dados com Apache Spark e consultar com SQL

Compartilhar via

Ingerir dados no OneLake e analisar com o Azure Databricks

Pré-requisitos

Ingerir dados e modificar a tabela Delta

Comentários

Recursos adicionais

Compartilhar via

Ingerir dados no OneLake e analisar com o Azure Databricks

Pré-requisitos

Ingerir dados e modificar a tabela Delta

Conteúdo relacionado

Comentários

Recursos adicionais