Compartilhar via


Cenário de ponta a ponta da ciência de dados: introdução e arquitetura

Este conjunto de tutoriais demonstra um cenário de ponta a ponta de exemplo na experiência de ciência de dados do Fabric. Você implementará cada etapa, desde a ingestão, limpeza e preparação de dados, até o treinamento de modelos de machine learning e geração de insights e, em seguida, consumirá esses insights usando ferramentas de visualização como o Power BI.

Se você não estiver familiarizado com o Microsoft Fabric, confira O que é o Microsoft Fabric?.

Introdução

O ciclo de vida de um projeto de ciência de dados normalmente inclui (geralmente, iterativamente) as seguintes etapas:

  • Noções básicas sobre negócios
  • Aquisição de dados
  • Exploração, limpeza, preparação e visualização de dados
  • Treinamento de modelos e acompanhamento de experimentos
  • Pontuação de modelo e geração de insights.

As metas e os critérios de sucesso de cada estágio dependem da colaboração, do compartilhamento de dados e da documentação. A experiência de ciência de dados do Fabric consiste em vários recursos nativos que permitem colaboração, aquisição de dados, compartilhamento e consumo de maneira perfeita.

Nestes tutoriais, você assume o papel de um cientista de dados que recebeu a tarefa de explorar, limpar e transformar um conjunto de dados que contenha o status da rotatividade de 10.000 clientes em um banco. Em seguida, você cria um modelo de machine learning para prever quais clientes do banco provavelmente sairão.

Você aprenderá a executar as seguintes atividades:

  1. Use os notebooks do Fabric para cenários de ciência de dados.
  2. Ingira dados em um lakehouse do Fabric usando o Apache Spark.
  3. Carregue dados existentes das tabelas delta do lakehouse.
  4. Limpe e transforme os dados usando as ferramentas baseadas no Apache Spark e Python.
  5. Crie experimentos e execuções para treinar diferentes modelos de machine learning.
  6. Registre e acompanhe modelos treinados usando o MLflow e a interface do usuário do Fabric.
  7. Execute a pontuação em escala e salve previsões e resultados de inferência no lakehouse.
  8. Visualizar previsões no Power BI usando o DirectLake.

Arquitetura

Nesta série de tutoriais, mostramos um cenário simplificado de ciência de dados de ponta a ponta que envolve:

  1. Ingerir dados de uma fonte de dados externa.
  2. Explorar e limpar os dados.
  3. Treinar e registrar modelos de machine learning.
  4. Executar a pontuação em lote e salvar as previsões.
  5. Visualizar os resultados da previsão usando o Power BI.

Diagram of the Data science end-to-end scenario components.

Diferentes componentes do cenário de ciência de dados

Fontes de dados – o Fabric facilita e agiliza a conexão com os Serviços de Dados do Azure, outras plataformas de nuvem e fontes de dados locais para ingerir dados. Usando Notebooks do Fabric, você pode ingerir dados do lakehouse interno, Data Warehouse, modelos semânticos e várias fontes de dados personalizadas compatíveis com Apache Spark e Python. Esta série de tutoriais se concentra em ingerir e carregar dados de um lakehouse.

Explorar, limpar e preparar: a experiência da ciência de dados no Fabric dá suporte à limpeza, transformação, exploração e definição de recursos dos dados usando experiências internas no Spark, bem como ferramentas baseadas em Python, como Data Wrangler e SemPy Library. Este tutorial mostrará a exploração de dados usando a biblioteca seaborn do Python e a limpeza e a preparação de dados usando o Apache Spark.

Modelos e experimentos – o Fabric permite que você treine, avalie e pontue modelos de machine learning usando itens de experimento e modelo internos com integração perfeita com o MLflow para acompanhamento de experimentos e registro/implantação de modelos. O Fabric também apresenta recursos para previsão de modelo em escala (PREDICT) para obter e compartilhar insights de negócios.

Armazenamento – a malha é padronizada no Delta Lake, o que significa que todos os mecanismos do Fabric podem interagir com o mesmo conjunto de dados armazenado em um lakehouse. Essa camada de armazenamento permite armazenar dados estruturados e não estruturados que dão suporte ao armazenamento baseado em arquivo e ao formato tabular. Os conjuntos de dados e arquivos armazenados podem ser facilmente acessados por meio de todos os itens de experiência do Fabric, como notebooks e pipelines.

Expor análises e insights – os dados de um lakehouse podem ser consumidos pelo Power BI, ferramenta líder de business intelligence do setor, para relatórios e visualização. Os dados persistentes no lakehouse também podem ser visualizados em notebooks usando bibliotecas de visualização nativas do Spark ou Python, como matplotlib, seaborn, plotly, e mais. Os dados também podem ser visualizados usando a biblioteca SemPy que dá suporte a visualizações internas avançadas e específicas de tarefas para o modelo de dados semânticos, para dependências e suas violações e para casos de uso de classificação e regressão.

Próxima etapa