Linhagem de dados no Microsoft Purview
Este artigo fornece uma descrição geral da linhagem de dados no Catálogo unificado do Microsoft Purview. Também detalha como os sistemas de dados podem ser integrados no catálogo para capturar a linhagem de dados. O Microsoft Purview pode capturar linhagem para dados em diferentes partes do património de dados da sua organização e em diferentes níveis de preparação, incluindo:
- Dados não processados testados a partir de várias plataformas
- Dados transformados e preparados
- Dados utilizados pelas plataformas de visualização
Casos de uso
A linhagem de dados é amplamente entendida como o ciclo de vida que abrange a origem dos dados e onde se move ao longo do tempo através do património de dados. É utilizado para diferentes tipos de cenários retroescedidos, como a resolução de problemas, o rastreio da causa raiz nos pipelines de dados e a depuração. A linhagem também é utilizada para cenários de análise de qualidade de dados, conformidade e "e se", muitas vezes referidos como análise de impacto. A linhagem é representada visualmente para mostrar os dados que se movem da origem para o destino, incluindo a forma como os dados foram transformados. Dada a complexidade da maioria dos ambientes de dados empresariais, estas vistas podem ser difíceis de compreender sem fazer alguma consolidação ou mascaramento de pontos de dados periféricos.
Experiência de linhagem no Catálogo unificado
Catálogo unificado liga-se a outros sistemas de processamento, armazenamento e análise de dados para extrair informações de linhagem. As informações são combinadas para representar uma experiência de linhagem genérica e específica do cenário no catálogo.
O seu património de dados pode incluir sistemas que fazem extração de dados, transformação (sistemas ETL/ELT), análise e sistemas de visualização. Cada um dos sistemas captura metadados estáticos e operacionais avançados que descrevem o estado e a qualidade dos dados dentro do limite dos sistemas. O objetivo da linhagem numa Catálogo unificado é extrair o movimento, a transformação e os metadados operacionais de cada sistema de dados no nível mais baixo possível.
O exemplo seguinte é um caso de utilização normal de dados que se movem por vários sistemas, em que Catálogo unificado se ligariam a cada um dos sistemas para linhagem.
- O Data Factory copia dados da zona no local/não processada para uma zona de destino na cloud.
- Os sistemas de processamento de dados, como o Synapse, o Databricks processariam e transformariam dados da zona de destino para a zona organizada através de blocos de notas.
- Processamento adicional de dados em modelos analíticos para um desempenho e agregação de consultas ideais.
- Os sistemas de visualização de dados consumirão os conjuntos de dados e processarão através do respetivo meta model para criar um Dashboard de BI, experimentações de ML, etc.
Granularidade da linhagem
A secção seguinte abrange os detalhes sobre a granularidade da qual as informações de linhagem são recolhidas pelo Microsoft Purview. Esta granularidade pode variar com base nos sistemas de dados suportados no Microsoft Purview.
Linhagem ao nível da entidade: Destinos do Processo > de Origens >
- A linhagem é representada como um gráfico, normalmente contém entidades de origem e destino em sistemas de armazenamento de dados que estão ligados por um processo invocado por um sistema de computação.
- Os sistemas de dados ligam-se a Catálogo unificado para gerar e comunicar um objeto exclusivo que referencia o objeto físico do sistema de dados subjacente, por exemplo: procedimento armazenado do SQL, blocos de notas, entre outros.
- A linhagem de alta fidelidade com outros metadados, como a propriedade, é capturada para mostrar a linhagem num formato legível por humanos para entidades de destino & de origem. por exemplo: linhagem ao nível da tabela do hive em vez de partições ou ao nível do ficheiro.
Linhagem ao nível da coluna ou do atributo
Identificar atributos de uma entidade de origem que é utilizada para criar ou derivar atributos na entidade de destino. O nome do atributo de origem pode ser retido ou mudado de nome num destino. Sistemas como o Azure Data Factory (ADF) podem fazer uma cópia única do ambiente no local para a cloud. Por exemplo: Table1/ColumnA -> Table2/ColumnA
.
Status de execução de processos
Para suportar cenários de análise da causa raiz e qualidade dos dados, capturamos a execução status das tarefas nos sistemas de processamento de dados. Este requisito não tem nada a ver com a substituição das capacidades de monitorização de outros sistemas de processamento de dados, nem o objetivo é substituí-los.
Resumo
A linhagem é uma funcionalidade crítica do Catálogo unificado para suportar cenários de qualidade, confiança e auditoria. O objetivo de uma Catálogo unificado é criar uma estrutura robusta, na qual todos os sistemas de dados no seu ambiente se possam ligar naturalmente e comunicar linhagem. Assim que os metadados estiverem disponíveis, Catálogo unificado podem reunir os metadados fornecidos pelos sistemas de dados para ligar os casos de utilização da governação de dados.