Catálogo unificado guia do utilizador da linhagem
Este artigo fornece uma descrição geral das funcionalidades de linhagem de dados no Catálogo unificado do Microsoft Purview.
Histórico
Uma das funcionalidades da plataforma do Microsoft Purview é a capacidade de mostrar a linhagem entre conjuntos de dados criados por processos de dados. Sistemas como o Data Factory, o Data Share e o Power BI capturam a linhagem de dados à medida que se movem. Os relatórios de linhagem personalizados também são suportados através de hooks Atlas e API REST.
Coleção de linhagem
Os metadados recolhidos no Microsoft Purview a partir de sistemas de dados empresariais são cosidos para mostrar uma linhagem de dados ponto a ponto. Os sistemas de dados que recolhem linhagem no Microsoft Purview são amplamente categorizados nos seguintes três tipos:
- Sistemas de processamento de dados
- Sistemas de armazenamento de dados
- Análise de dados e sistemas de relatórios
Cada sistema suporta um nível diferente de âmbito de linhagem. Verifique as secções abaixo ou o artigo de linhagem individual do seu sistema para confirmar o âmbito da linhagem atualmente disponível.
Limitações conhecidas
- As Vistas de Base de Dados utilizadas como origem da atividade do processo (Azure Data Factory, Pipelines do Synapse, Base de Dados SQL do Azure, Data Share do Azure) são atualmente capturadas como objetos de Tabela de Base de Dados no Microsoft Purview. Se a Base de Dados também for analisada, os recursos ver são detetados separadamente no Microsoft Purview. Neste cenário, dois recursos com o mesmo nome capturados no Microsoft Purview, um como uma Tabela com linhagem de dados e outro como uma Vista.
- Se um procedimento armazenado contiver instruções de remoção ou criação, estas não são atualmente capturadas na linhagem.
Sistemas de processamento de dados
A integração de dados e as ferramentas ETL podem emitir linhagem para o Microsoft Purview no momento da execução. Ferramentas como o Data Factory, Data Share, Synapse, Azure Databricks, etc., pertencem a esta categoria de sistemas de processamento de dados. Os sistemas de processamento de dados referenciam conjuntos de dados como origem de diferentes bases de dados e soluções de armazenamento para criar conjuntos de dados de destino. A lista de sistemas de processamento de dados atualmente integrados no Microsoft Purview para linhagem está listada na tabela abaixo.
Sistema de processamento de dados | Âmbito suportado |
---|---|
Fluxo de ar | Linhagem do Airflow |
Azure Data Share | Partilhar snapshot |
Azure Data Factory |
atividade Copy Atividade do fluxo de dados Executar a atividade do pacote SSIS |
Base de Dados do SQL do Azure (Pré-visualização) | Extração de linhagem para execuções de procedimentos armazenados |
Azure Synapse Analytics |
atividade Copy Atividade do fluxo de dados |
Sistemas de armazenamento de dados
As bases de dados & soluções de armazenamento como Oracle, Teradata e SAP têm motores de consulta para transformar dados com linguagem de scripting. As informações de linhagem de dados de vistas/procedimentos armazenados/etc. são recolhidas no Microsoft Purview e cosidas com linhagem de outros sistemas. A linhagem é suportada para as seguintes origens de dados através da análise de dados do Microsoft Purview. Saiba mais sobre os cenários de linhagem suportados no respetivo artigo.
Categoria | Fonte de dados |
---|---|
Azure | Azure Databricks |
Banco de dados | Cassandra |
DB2 | |
BigQuery do Google | |
Banco de Dados do Metastore do Hive | |
MySQL | |
Oracle | |
PostgreSQL | |
Snowflake | |
Teradata | |
Serviços e aplicações | Erwin |
Looker | |
SAP ECC | |
SAP S/4HANA |
Análise de dados e sistemas de relatórios
Análise de dados e sistemas de relatórios, como o Azure Machine Learning e a linhagem de relatórios do Power BI no Microsoft Purview. Estes sistemas utilizarão os conjuntos de dados dos sistemas de armazenamento e processarão através do respetivo meta modelo para criar Dashboards de BI, experimentações de ML, etc.
Análise de dados & sistema de relatórios | Âmbito suportado |
---|---|
Power BI | Conjuntos de dados, Fluxos de Dados, Relatórios & Dashboards |
Introdução à linhagem
A linhagem no Microsoft Purview inclui conjuntos de dados e processos. Os conjuntos de dados também são referidos como nós, enquanto os processos também podem ser denominados arestas:
Conjunto de dados (Nó): um conjunto de dados (estruturado ou não estruturado) fornecido como uma entrada para um processo. Por exemplo, uma Tabela SQL, um blob do Azure e ficheiros (como .csv e .xml) são todos considerados conjuntos de dados. Na secção linhagem do Microsoft Purview, os conjuntos de dados são representados por caixas retangulares.
Processo (Edge): uma atividade ou transformação realizada num conjunto de dados é denominada processo. Por exemplo, atividade Copy do ADF, Data Share snapshot e assim sucessivamente. Na secção de linhagem do Microsoft Purview, os processos são representados por caixas de margens redondas.
Para aceder às informações de linhagem de um recurso no Microsoft Purview, siga os passos:
Abra o portal de governação do Microsoft Purview ao:
- Navegue diretamente para https://web.purview.azure.com e selecione a sua conta do Microsoft Purview.
- Abrir o portal do Azure, procurar e selecionar a conta do Microsoft Purview. Selecionar o botão portal de governação do Microsoft Purview .
Na Home page do portal de governação do Microsoft Purview, procure um nome de conjunto de dados ou o nome do processo, como Cópia do ADF ou atividade Fluxo de Dados. Em seguida, prima Enter.
Nos resultados da pesquisa, selecione o elemento e selecione o respetivo separador Linhagem .
Linhagem ao nível do recurso
O Microsoft Purview suporta a linhagem ao nível dos recursos para os conjuntos de dados e processos. Para ver a linhagem ao nível do recurso, aceda ao separador Linhagem do recurso atual no catálogo. Selecione o nó do recurso do conjunto de dados atual. Por predefinição, a lista de colunas pertencentes aos dados é apresentada no painel esquerdo.
Linhagem manual
A linhagem de dados no Microsoft Purview é automatizada para muitos recursos em ambientes no local, multicloud e SaaS. Enquanto continuamos a adicionar mais origens automatizadas, a linhagem manual permite-lhe documentar metadados de linhagem para origens onde a automatização ainda não é suportada, sem utilizar código.
Para adicionar linhagem manual para qualquer um dos seus recursos, siga estes passos:
Procure o seu elemento no Catálogo unificado e selecione-o para ver os detalhes.
Selecione Editar, navegue para o separador Linhagem e selecione Adicionar linhagem manual no painel inferior.
Para configurar a linhagem de recursos:
- Selecione a lista pendente de recursos para localizar o recurso na lista sugerida ou Ver mais para procurar no catálogo completo. Selecione o elemento que pretende ligar.
- Selecione o ícone de troca para configurar a direção da relação como Produtos (para linhagem a jusante) ou Consumes (para upstream linhagem).
- Se quiser eliminar uma linhagem, selecione o ícone do caixote do lixo.
Quando adiciona linhagem entre dois recursos de dados, pode configurar adicionalmente a linhagem ao nível da coluna. Selecione o ícone expandir no início da linha, selecione as colunas upstream e a jusante nas listas pendentes correspondentes para configurar o mapeamento de colunas. Selecione o ícone de adição para adicionar mais linhagem de colunas; selecione o ícone de caixote do lixo para eliminar os existentes.
Pode adicionar mais linhagem ao nível do recurso ao selecionar novamente o botão Adicionar linhagem manual . Quando terminar, selecione o botão Guardar para guardar a linhagem e sair do modo de edição.
Limitações conhecidas da linhagem manual
- A experiência atual do seletor de recursos permite selecionar apenas um recurso de cada vez.
- A linhagem manual ao nível da coluna é atualmente suportada para linhagem entre dois recursos de dados, embora não seja suportada quando o recurso de processo está envolvido no meio.
- Acesso à curadoria de dados necessário para recursos de origem e de destino.
- Atualmente, estes tipos de recursos não permitem a linhagem manual porque suportam a linhagem automatizada:
- Azure Data Factory
- Pipelines do Synapse
- Conjuntos de dados do Power BI
- Procedimento armazenado do Teradata
- SQL do Azure procedimento armazenado
Linhagem de colunas de conjuntos de dados
Para ver a linhagem ao nível da coluna de um conjunto de dados, aceda ao separador Linhagem do recurso atual no catálogo e siga os passos abaixo:
Assim que estiver no separador linhagem, no painel esquerdo, selecione a caixa de marcar junto a cada coluna que pretende apresentar na linhagem de dados.
Paire o cursor sobre uma coluna selecionada no painel esquerdo ou no conjunto de dados da tela de linhagem para ver o mapeamento de colunas. Todas as instâncias de coluna estão realçadas.
Se o número de colunas for maior do que o que pode ser apresentado no painel esquerdo, utilize a opção de filtro para selecionar uma coluna específica por nome. Em alternativa, pode utilizar o rato para percorrer a lista.
Se a tela de linhagem contiver mais nós e arestas, utilize o filtro para selecionar recursos de dados ou processar nós por nome. Em alternativa, pode utilizar o rato para percorrer a janela de linhagem.
Utilize o botão de alternar no painel esquerdo para realçar a lista de conjuntos de dados na tela de linhagem. Se desativar o botão de alternar, é apresentado qualquer elemento que contenha, pelo menos, uma das colunas selecionadas. Se ativar o botão de alternar, apenas são apresentados os conjuntos de dados que contêm todas as colunas.
Linhagem de colunas de processo
Também pode ver processos de dados, como atividades de cópia, no Catálogo unificado. Por exemplo, neste fluxo de linhagem, selecione a atividade de cópia:
A atividade de cópia será expandida e, em seguida, pode selecionar o botão Mudar para recurso, que lhe dará mais detalhes sobre o próprio processo.
O processo de dados pode utilizar um ou mais conjuntos de dados de entrada para produzir uma ou mais saídas. No Microsoft Purview, a linhagem ao nível da coluna está disponível para nós de processo.
Alternar entre conjuntos de dados de entrada e saída de um menu pendente no painel de colunas.
Selecione colunas de uma ou mais tabelas para ver a linhagem a fluir do conjunto de dados de entrada para o conjunto de dados de saída correspondente.
Procurar recursos na linhagem
Selecione Mudar para recurso em qualquer recurso para ver os metadados correspondentes na vista de linhagem. Fazê-lo é uma forma eficaz de navegar para outro recurso no catálogo a partir da vista de linhagem.
A tela de linhagem pode tornar-se complexa para conjuntos de dados populares. Para evitar a desorganização, a vista predefinida mostrará apenas cinco níveis de linhagem para o recurso em foco. O resto da linhagem pode ser expandido ao selecionar as bolhas na tela de linhagem. Os consumidores de dados também podem ocultar os recursos na tela que não são de interesse. Para reduzir ainda mais a desorganização, desative o botão de alternar Mais Linhagem na parte superior da tela de linhagem. Esta ação irá ocultar todas as bolhas na tela de linhagem.
Utilize os botões inteligentes na tela de linhagem para obter uma vista ideal da linhagem:
- Ecrã inteiro
- Aplicar zoom para ajustar
- Ampliar/reduzir
- Alinhar automaticamente
- Pré-visualização do zoom
- E mais opções:
- Centrar o recurso atual
- Repor para a vista predefinida
Criar linhagem personalizada manualmente ou com APIs REST
Uma das funcionalidades importantes da plataforma do Microsoft Purview é a capacidade de mostrar a linhagem entre conjuntos de dados criados por processos de dados. Sistemas como o Data Factory, o Data Share e o Power BI capturam a linhagem de dados à medida que se movem. Em determinadas situações, a linhagem gerada automaticamente pelo Purview está incompleta ou em falta para efeitos práticos de visualização e/ou relatórios empresariais. Nesses cenários, pode criar entradas de linhagem personalizadas manualmente no portal do Microsoft Purview ou através de hooks do Apache Atlas e da API REST. Outra das principais vantagens da utilização de APIs REST para comunicar ou criar linhagem personalizada é superar ou mitigar as limitações da funcionalidade exposta pela Linhagem Manual.
Para criar linhagem personalizada manualmente, pode seguir este guia de utilizador: Entradas de linhagem manuais no Microsoft Purview.
Para criar linhagem personalizada no Microsoft Purview com as APIs REST, siga este guia de utilizador: Microsoft Purview – Criar Linhagem Personalizada com APIs REST.
Dica
Em alguns casos, as APIs REST podem fornecer mais opções de entrada e personalização do que criar as entradas de linhagem manualmente através do portal.