Compartilhar via


Tutorial: Como usar um notebook com o Apache Spark para consultar um banco de dados KQL

Notebooks são documentos legíveis que contêm descrições e resultados de análise de dados, além de documentos executáveis que podem ser executados para realizar a análise de dados. Neste artigo, você aprenderá a usar um notebook do Microsoft Fabric para ler e gravar dados em um banco de dados KQL usando o Apache Spark. Este tutorial usa conjuntos de dados e notebooks pré-criado na Inteligência em Tempo Real e nos ambientes de Engenharia de Dados no Microsoft Fabric. Para obter mais informações sobre notebooks, confira Como usar notebooks do Microsoft Fabric.

Especificamente, você aprenderá a:

  • Criar um banco de dados KQL
  • Importar um notebook
  • Gravar dados em um banco de dados KQL usando o Apache Spark
  • Consultar dados de um banco de dados KQL

Pré-requisitos

1 - Criar um banco de dados KQL

  1. Abra o comutador de experiência na parte inferior do painel de navegação e selecione Inteligência em Tempo Real.

  2. Selecione o título Banco de dados KQL.

    Captura de tela do novo bloco de banco de dados KQL na Inteligência em Tempo Real.

  3. No campo Nome do Banco de Dados KQL , insira nycGreenTaxi e selecione Criar.

    O banco de dados KQL foi criado dentro do contexto do workspace selecionado.

  4. Copie o URI da consulta do cartão de detalhes do banco de dados no painel do banco de dados e cole-o em algum lugar, como em um bloco de notas, para usar em uma etapa posterior.

    Captura de tela do cartão de detalhes do banco de dados que mostra os detalhes do banco de dados. A opção Consultar URI intitulada Copiar URI é realçada.

2- Baixar o notebook NYC GreenTaxi

Criamos um notebook de amostra que leva você por todas as etapas necessárias para carregar dados em seu banco de dados usando o conector spark.

  1. Abra o repositório de exemplos do Fabric no GitHub para baixar o Notebook KQL NYC Taxi.

    Captura de tela do repositório GitHub mostrando o notebook NYC GreenTaxi. A opção Bruto está destacada.

  2. Salve o notebook localmente em seu dispositivo.

    Observação

    O notebook deve ser salvo no formato de arquivo .ipynb.

3- Importar o notebook

O restante desse fluxo de trabalho ocorre na seção Engenharia de Dados do produto e usa um notebook Spark para carregar e consultar dados no banco de dados KQL.

  1. Abra o comutador de experiências na parte inferior do painel de navegação, selecione Desenvolver e, em seguida, seu workspace.

  2. Selecione Importar>Notebook>Deste computador>Carregar e, a seguir, escolha o notebook NYC GreenTaxi que você baixou em uma etapa anterior.

    Captura de tela da janela Status de importação. O botão intitulado Carregar é realçado.

  3. Após a importação ser concluída, abra o notebook no seu workspace.

4 - Obter dados

Para consultar seu banco de dados usando o conector do Spark, você precisa conceder acesso de leitura e gravação ao contêiner de blob do NYC GreenTaxi.

Selecione o botão Executar para executar cada célula sequencialmente ou selecione a célula e pressione Shift+ Enter. Repita essa etapa para cada célula de código.

Observação

Aguarde até que a marca de verificação de conclusão apareça antes de executar a próxima célula.

  1. Execute a célula a seguir para habilitar o acesso ao contêiner de blob NYC GreenTaxi.

    Captura de tela da primeira célula de código mostrando as informações de acesso ao armazenamento.

  2. No KustoURI, cole o URI de consulta que você copiou anteriormente em vez do texto do espaço reservado.

  3. Altere o nome do banco de dados do espaço reservado para nycGreenTaxi.

  4. Altere o nome da tabela de espaço reservado para GreenTaxiData.

    Captura de tela da célula de código mostrando o nome do banco de dados e o URI da consulta. O URI da consulta e o nome do banco de dados são realçados.

  5. Execute a célula.

  6. Execute a próxima célula para gravar dados no banco de dados. Pode levar alguns minutos para que essa etapa seja concluída.

    Captura de tela da terceira célula de código mostrando o mapeamento da tabela e o comando de ingestão.

Seu banco de dados agora tem dados carregados em uma tabela chamada GreenTaxiData.

5- Executar o notebook

Execute as duas células restantes sequencialmente para consultar dados de sua tabela. Os resultados mostram as 20 maiores e mais baixas tarifas de táxi e distâncias registradas por ano.

Captura de tela da quarta e quinta célula de código mostrando os resultados da consulta.

6. Limpar os recursos

Limpe os itens criados navegando até o workspace no qual foram criados.

  1. No workspace, passe o mouse sobre o notebook que você deseja excluir, selecione o menu Mais [...] >Excluir.

    Captura de tela do workspace mostrando o menu suspenso do notebook NYC GreenTaxi. A opção intitulada Excluir está realçada.

  2. Selecione Excluir. Não é possível recuperar o notebook depois de excluí-lo.