Cenário de ponta a ponta da ciência de dados: introdução e arquitetura
Este conjunto de tutoriais demonstra um cenário de ponta a ponta de exemplo na experiência de ciência de dados do Fabric. Você implementará cada etapa, desde a ingestão, limpeza e preparação de dados, até o treinamento de modelos de machine learning e geração de insights e, em seguida, consumirá esses insights usando ferramentas de visualização como o Power BI.
Se você não estiver familiarizado com o Microsoft Fabric, confira O que é o Microsoft Fabric?.
Introdução
O ciclo de vida de um projeto de ciência de dados normalmente inclui (geralmente, iterativamente) as seguintes etapas:
- Noções básicas sobre negócios
- Aquisição de dados
- Exploração, limpeza, preparação e visualização de dados
- Treinamento de modelos e acompanhamento de experimentos
- Pontuação de modelo e geração de insights.
As metas e os critérios de sucesso de cada estágio dependem da colaboração, do compartilhamento de dados e da documentação. A experiência de ciência de dados do Fabric consiste em vários recursos nativos que permitem colaboração, aquisição de dados, compartilhamento e consumo de maneira perfeita.
Nestes tutoriais, você assume o papel de um cientista de dados que recebeu a tarefa de explorar, limpar e transformar um conjunto de dados que contenha o status da rotatividade de 10.000 clientes em um banco. Em seguida, você cria um modelo de machine learning para prever quais clientes do banco provavelmente sairão.
Você aprenderá a executar as seguintes atividades:
- Use os notebooks do Fabric para cenários de ciência de dados.
- Ingira dados em um lakehouse do Fabric usando o Apache Spark.
- Carregue dados existentes das tabelas delta do lakehouse.
- Limpe e transforme os dados usando as ferramentas baseadas no Apache Spark e Python.
- Crie experimentos e execuções para treinar diferentes modelos de machine learning.
- Registre e acompanhe modelos treinados usando o MLflow e a interface do usuário do Fabric.
- Execute a pontuação em escala e salve previsões e resultados de inferência no lakehouse.
- Visualizar previsões no Power BI usando o DirectLake.
Arquitetura
Nesta série de tutoriais, mostramos um cenário simplificado de ciência de dados de ponta a ponta que envolve:
- Ingerir dados de uma fonte de dados externa.
- Explorar e limpar os dados.
- Treinar e registrar modelos de machine learning.
- Executar a pontuação em lote e salvar as previsões.
- Visualizar os resultados da previsão usando o Power BI.
Diferentes componentes do cenário de ciência de dados
Fontes de dados – o Fabric facilita e agiliza a conexão com os Serviços de Dados do Azure, outras plataformas de nuvem e fontes de dados locais para ingerir dados. Usando Notebooks do Fabric, você pode ingerir dados do lakehouse interno, Data Warehouse, modelos semânticos e várias fontes de dados personalizadas compatíveis com Apache Spark e Python. Esta série de tutoriais se concentra em ingerir e carregar dados de um lakehouse.
Explorar, limpar e preparar: a experiência da ciência de dados no Fabric dá suporte à limpeza, transformação, exploração e definição de recursos dos dados usando experiências internas no Spark, bem como ferramentas baseadas em Python, como Data Wrangler e SemPy Library. Este tutorial mostrará a exploração de dados usando a biblioteca seaborn
do Python e a limpeza e a preparação de dados usando o Apache Spark.
Modelos e experimentos – o Fabric permite que você treine, avalie e pontue modelos de machine learning usando itens de experimento e modelo internos com integração perfeita com o MLflow para acompanhamento de experimentos e registro/implantação de modelos. O Fabric também apresenta recursos para previsão de modelo em escala (PREDICT) para obter e compartilhar insights de negócios.
Armazenamento – a malha é padronizada no Delta Lake, o que significa que todos os mecanismos do Fabric podem interagir com o mesmo conjunto de dados armazenado em um lakehouse. Essa camada de armazenamento permite armazenar dados estruturados e não estruturados que dão suporte ao armazenamento baseado em arquivo e ao formato tabular. Os conjuntos de dados e arquivos armazenados podem ser facilmente acessados por meio de todos os itens de experiência do Fabric, como notebooks e pipelines.
Expor análises e insights – os dados de um lakehouse podem ser consumidos pelo Power BI, ferramenta líder de business intelligence do setor, para relatórios e visualização. Os dados persistentes no lakehouse também podem ser visualizados em notebooks usando bibliotecas de visualização nativas do Spark ou Python, como matplotlib
, seaborn
, plotly
, e mais. Os dados também podem ser visualizados usando a biblioteca SemPy que dá suporte a visualizações internas avançadas e específicas de tarefas para o modelo de dados semânticos, para dependências e suas violações e para casos de uso de classificação e regressão.