Zona de aterrissagem de gerenciamento de dados
A zona de aterragem de gestão de dados é uma função de gestão central para análises em escala de nuvem. É responsável pela governança da sua plataforma de análise.
Sua zona de aterrissagem de gerenciamento de dados é uma assinatura separada que tem os mesmos serviços padrão da zona de aterrissagem do Azure. Ele permite a governança de dados de seus dados por meio de rastreadores, que se conectam aos seus data lakes e armazenamento poliglota em suas zonas de aterrissagem de dados. O emparelhamento de rede virtual conecta sua zona de destino de gerenciamento de dados às suas zonas de aterrissagem de dados e assinatura de conectividade.
Essa arquitetura é um ponto de partida e você pode modificá-la para atender aos seus requisitos técnicos e de negócios específicos ao planejar a implementação da zona de aterrissagem de gerenciamento de dados.
Nota
Persistência poliglota é um termo de armazenamento que descreve a sua escolha entre diferentes tecnologias de armazenamento de dados para dar suporte aos vários tipos de dados e às suas necessidades de armazenamento. Essencialmente, a persistência poliglota é o conceito de que um aplicativo pode usar mais de um banco de dados principal ou tecnologia de armazenamento.
Importante
Sua zona de aterrissagem de gerenciamento de dados deve ser implantada como uma assinatura separada em um grupo de gerenciamento com a governança apropriada. Em seguida, você pode controlar a governança em toda a sua organização. O acelerador de zona de aterrissagem do Azure ilustra como você deve abordar as zonas de aterrissagem do Azure.
Governança de dados
O Cloud Scale Analytics sugere o uso do Microsoft Purview. Como alternativa, as soluções de parceiros da Microsoft podem ser implantadas para gerenciar funções específicas de governança de dados. As principais funções a serem consideradas em sua arquitetura incluem um catálogo de dados global, gerenciamento de dados mestres, compartilhamento de dados e contratos, catálogo de API, gerenciamento de qualidade de dados e um repositório de modelagem de dados.
Os produtos de governança de dados de parceiros da Microsoft que precisam de implantação em uma assinatura devem ser implantados no grupo de recursos de Governança de Dados dentro da zona de aterrissagem de gerenciamento de dados.
Catálogo de dados
O catálogo de dados registra e mantém as informações de dados em um local centralizado e as disponibiliza para a organização. Ele garante que as empresas evitem produtos de dados duplicados causados pela ingestão de dados redundantes por diferentes equipes de projeto. Recomendamos que você crie um serviço de catálogo de dados para definir os metadados dos produtos de dados armazenados nas zonas de aterrissagem de dados.
A análise em escala de nuvem depende do Microsoft Purview para registrar fontes de dados corporativas, classificá-las, garantir a qualidade dos dados e oferecer acesso seguro e de autoatendimento.
O Microsoft Purview é um serviço baseado em locatário e pode se comunicar com cada zona de aterrissagem de dados criando uma Rede Virtual Gerenciada implantada na região de suas zonas de aterrissagem de dados. Você pode implantar o Azure Managed Virtual Network Integration Runtimes (IR) dentro das Redes Virtuais Gerenciadas do Microsoft Purview em qualquer região disponível do Microsoft Purview. A partir daí, o IR da rede virtual gerenciada pode usar pontos de extremidade privados para se conectar e verificar com segurança as fontes de dados suportadas. Para obter mais informações, consulte Usar rede virtual gerenciada com sua conta do Microsoft Purview. A criação de um RI de rede virtual gerenciado dentro da Rede Virtual Gerenciada garante que o processo de integração de dados seja isolado e seguro.
Ao usar o Azure Databricks, recomendamos usar do Azure Databricks Unity Catalog além do Microsoft Purview. O Azure Databricks Unity Catalog fornece recursos centralizados de controle de acesso, auditoria, linhagem e descoberta de dados nos espaços de trabalho do Databricks. Para obter as práticas recomendadas para configurar o Catálogo Unity, consulte Práticas recomendadas do Catálogo Unity.
Nota
Embora esta documentação se concentre principalmente no uso do Microsoft Purview para governança, as empresas podem ter investido em outros produtos, como Alation, Okera ou Collibra. Essas soluções são baseadas em assinatura e recomendamos implantá-las na zona de receção de gestão de dados. Esteja ciente de que alguma integração personalizada pode ser necessária.
Gestão de dados mestres
O controle de gerenciamento de dados mestre reside na zona de aterrissagem de gerenciamento de dados. O gerenciamento de dados mestre na malha de dados contém considerações específicas que você deve chamar a atenção para malha de dados.
Muitas soluções de gerenciamento de dados mestre se integram totalmente ao Microsoft Entra ID. Essa integração permite que você proteja seus dados e forneça diferentes visualizações para diferentes grupos de usuários.
Para obter mais informações, consulte Sistema de gerenciamento de dados mestre.
Partilha de dados e contratos
A análise em escala de nuvem usa o gerenciamento de direitos do Microsoft Entra ou políticas do Microsoft Purview para controlar o acesso ao compartilhamento de dados. Mesmo assim, você ainda pode precisar de um repositório de compartilhamento e contrato. Este repositório é uma função organizacional e deve residir na sua zona de aterrissagem de gerenciamento de dados.
Seus contratos devem fornecer informações sobre validação de dados, modelos e políticas de segurança.
Para obter mais informações, consulte Contratos de dados.
Catálogo API
Suas equipes de aplicativos de dados criam várias APIs para seus aplicativos de dados. Essas APIs podem ser difíceis de descobrir em toda a sua organização. Colocar um catálogo de API na zona de aterrissagem do gerenciamento de dados pode resolver esse problema.
Um catálogo de API pode ajudar a padronizar sua documentação e oferece um local para colaboração interna em APIs. Ele também pode impulsionar o consumo, a publicação e os controles de governança em toda a sua organização.
Gestão da qualidade dos dados
Continue com a sua solução atual.
Gerencie a qualidade dos dados o mais próximo possível da fonte de dados para evitar que problemas de qualidade se espalhem por seus sistemas de análise e IA. Ao integrar métricas de qualidade e validação em seus processos de dados, você alinha o gerenciamento de qualidade com as equipes mais familiarizadas com os dados, garantindo uma compreensão mais profunda e um melhor manuseio dos ativos de dados.
A linhagem de dados também fornece confiança na qualidade dos dados, e você deve fornecê-la para todos os produtos de dados.
Para obter mais informações sobre gerenciamento de qualidade de dados, consulte Qualidade de dados.
Repositório de modelagem de dados
Você deve capturar e armazenar modelos de relacionamento de entidade em um local central dentro de sua zona de aterrissagem de gerenciamento de dados, fornecendo aos consumidores de dados um único local para encontrar diagramas conceituais.
Muitos clientes usam ER Studio e OrbusInfinity para modelar seus produtos de dados antes da ingestão.
Camada de serviço
Sua organização pode decidir criar muitos serviços de automação para aumentar os recursos de análise em escala de nuvem. Esses serviços de automação impulsionam a conformidade e as soluções de integração para o seu estado de análise.
Se você decidir criar esses serviços de automação, deverá ter uma interface de usuário que atue como um mercado de dados e um console de operação. Essa interface deve contar com um repositório de metadados subjacente, como Padrões de metadados.
Seu mercado de dados ou console de operações chama uma camada intermediária de microsserviços para facilitar a integração, o registro de metadados, o provisionamento de segurança, o ciclo de vida dos dados e a observabilidade.
Você pode provisionar a camada de serviço grupo de recursos para hospedar seu repositório de metadados.
Importante
Nenhum desses serviços de automação são produtos e não ilustram nenhum item de roteiro. Eles são listados para ajudá-lo a considerar quais itens você pode querer automatizar.
Serviço | Âmbito do Serviço |
---|---|
Provisionamento da zona de aterrissagem de dados | Este serviço cria uma nova zona de aterrissagem de dados. É improvável que tenha alto uso, mas está incluído para a completude da solução de integração de ponta a ponta. Para obter mais informações, consulte Provisionar a análise em escala de nuvem |
Integração de produtos de dados | Esse serviço cria e altera grupos de recursos que pertencem a um locatário integrado. Ele também contém recursos para atualizar e rebaixar SKUs e para ativar e desativar grupos de recursos para qualquer inquilino ou serviço já integrado. Ele cria uma nova zona de aterrissagem de dados DevOps. Para obter mais informações, consulte Provisionar a análise em escala de nuvem |
Ingestão agnóstica de dados | Esse microsserviço cria novas fontes de dados para ingestão em suas zonas de aterrissagem de dados comunicando-se com um metastore do Banco de Dados SQL do Azure Data Factory em cada zona de aterrissagem de dados. Para obter mais informações, consulte Como as estruturas de ingestão automatizadas dão suporte à análise em escala de nuvem no Azure |
Metadados | Este serviço expõe e cria metadados para a plataforma. Para obter mais informações, consulte Padrões de metadados |
Provisionamento de acesso | Este serviço cria pacotes de acesso, políticas de acesso e processos de aprovação de acesso a ativos (manuais ou automáticos) usando SPN/UPN. Ele também pode expor uma API para fornecer uma lista de solicitações de assinatura (ativos) que os usuários enviaram nos últimos 90 dias. Para obter mais informações, consulte Gerenciamento de acesso a dados |
Ciclo de vida dos dados | Este serviço é responsável por manter o ciclo de vida dos dados com base em metadados. Essa manutenção pode incluir a movimentação de dados para armazenamento refrigerado e a exclusão de registros que não precisam mais ser retidos. Para obter mais informações, consulte Gerenciamento do ciclo de vida dos dados |
Integração de domínio de dados | APLICÁVEL APENAS À MALHA DE DADOS. Este serviço captura metadados pertencentes a novos domínios e integra os novos domínios conforme necessário. Ele também pode criar, atualizar, ativar e desativar qualquer domínio ou linha de serviço que você possa criar em um microsserviço. Para obter mais informações, consulte Provisionar a análise em escala de nuvem |
Registo de Contentores do Azure
Sua zona de aterrissagem de gerenciamento de dados hospeda um Registro de Contêiner do Azure. O Registro de Contêiner do Azure permite que suas operações de plataforma de dados implantem contêineres padrão para uso em projetos de ciência de dados que suas equipes de aplicativos de dados consomem.