Compartir a través de


Integración de Microsoft Purview y CluedIn para la administración de datos maestros (MDM)

Esta arquitectura CluedIn proporciona a las empresas métricas sobre la calidad de los datos que ingiere, detectando de forma inteligente los datos sucios y preparándolo para su limpieza por parte de ingenieros de datos y administradores de datos. Los algoritmos propietarios de aprendizaje automático de lógica aproximada ayudan a los usuarios empresariales y conservadores a etiquetar los datos y a enseñar al sistema a identificar, corregir y evitar problemas de calidad de datos a lo largo del tiempo.

Arquitectura

Diagrama que muestra la estructura arquitectónica CluedIn y el flujo de datos.

Flujo de datos

La solución CluedIn consta de varias capas funcionales que se ejecutan en un clúster de Kubernetes en Azure Kubernetes Service (AKS). Una combinación de aplicaciones de microservicios de .NET Core controla funciones distintas, como la ingesta de datos, el procesamiento de datos de streaming, la cola y la interfaz de usuario.

  1. La capa de rastreo CluedIn ingiere datos de orígenes de nube de clientes, como bases de datos de Azure SQL DB, Azure Cosmos DB, PostgreSQL y Salesforce a través de conectores de Azure Data Factory.

    CluedIn también toma entradas de sistemas locales accesibles como SAP, Oracle, IBM y Hadoop, o puede usar agentes locales para rastrear datos no públicos.

  2. Enterprise Service Bus se conecta a través de los puertos 5672 y 15672 para los puntos de conexión de administración. Los rastreadores envían datos al bus y la capa de procesamiento consume datos del bus, a través del puerto 5672.

  3. La capa de registro de transacciones toma los resultados de la capa de procesamiento.

  4. En la capa de persistencia, las bases de datos consumen datos del registro de transacciones y los conservan para proporcionar coherencia final en los distintos almacenes de datos. Todas las tiendas se ejecutan en modo de alta disponibilidad (HA).

    A diferencia de la virtualización de datos, la capa de persistencia CluedIn ingiere partes de los datos de origen y conserva la versión de mayor fidelidad de los datos y su estructura. Esta alta fidelidad significa que CluedIn Data Fabric puede atender solicitudes empresariales de datos en cualquier formato o modelo.

  5. La capa de abstracción de datos se conecta a los distintos almacenes de datos a través de los puertos de cada almacén.

  6. El acceso a los datos se realiza a través de llamadas a GraphQL, REST y WebSockets a través del puerto 443. GraphQL y REST usan un modelo de extracción y WebSockets usa un modelo de inserción.

    CluedIn protege el acceso a datos mediante la limitación y la prevención de falsificación de solicitudes entre sitios (CSRF).

  7. La aplicación web CluedIn ASP.NET Core se comunica a través de una combinación de llamadas REST y GraphQL a través del puerto 443.

    Toda la comunicación desde el explorador a la aplicación usa un conjunto de definiciones de entrada, que solo requieren una única dirección IP pública. En un entorno de producción, toda la comunicación se realiza a través de una capa de socket seguro (SSL).

  8. La aplicación CluedIn proporciona datos limpios y procesados a servicios de análisis como Power BI y Azure Synapse Analytics para generar información. El sistema hace una copia de seguridad y almacena todos los datos en bases de datos SQL o Redis.

Componentes

CluedIn se ejecuta en Azure Kubernetes Service (AKS), un servicio de Kubernetes de alta disponibilidad, seguro y totalmente administrado para implementar y administrar aplicaciones en contenedores. AKS ofrece Kubernetes sin servidor, CI/CD integrado y gobernanza y seguridad de nivel empresarial.

CluedIn usa y admite muchos orígenes y servicios de base de datos, entre los que se incluyen:

  • Azure SQL Database, un servicio de base de datos en la nube relacional administrada que siempre está actualizado y puede escalar automáticamente los recursos a petición.
  • Azure SQL Managed Instance, para una amplia compatibilidad del motor de SQL Server con las aplicaciones SQL Server existentes. SQL Managed Instance proporciona infraestructuras de base de datos locales con ventajas en la nube de Azure, como la escala elástica, la administración unificada y un modelo de facturación en la nube.
  • Azure Cosmos DB, una base de datos sin servidor NoSQL totalmente administrada y norelational para el desarrollo de aplicaciones modernas.
  • Azure Data Lake, un servicio de análisis y almacenamiento de datos escalable.
  • Azure Data Factory, una solución de integración de datos sin servidor totalmente administrada para ingerir, preparar y transformar datos a escala. CluedIn usa más de 90 conectores integrados de Data Factory para adquirir datos de orígenes como Amazon Redshift, Google BigQuery, HDFS, Oracle Exadata, Teradata, Salesforce, Marketo, ServiceNow y todos los servicios de datos de Azure.

CluedIn proporciona datos procesados y controlados a muchas aplicaciones y servicios de análisis, entre los que se incluyen:

  • Azure Databricks, un servicio de análisis rápido, sencillo y colaborativo basado en Apache Spark.
  • Azure Synapse Analytics, un servicio de análisis ilimitado que reúne el almacenamiento de datos empresariales y el análisis de macrodatos.
  • Log Analytics, una herramienta de Azure Portal para editar, ejecutar y analizar consultas de datos de registro de Azure Monitor.
  • Azure Cognitive Services, una familia completa de servicios de inteligencia artificial y API cognitivas para crear aplicaciones inteligentes.
  • Power BI, un servicio de análisis empresarial de Microsoft que combina visualizaciones interactivas e inteligencia empresarial con una interfaz de creación de informes fácil de usar.

Detalles del escenario

Las empresas modernas basan muchos procesos y proyectos en datos, pero los datos sin procesar deben prepararse para su consumo. Todos los casos de uso de datos, desde análisis avanzado hasta aprendizaje automático, requieren procesos de preparación de datos y atención similares.

  1. Los proyectos de datos comienzan con la detección de datos para determinar dónde están los datos y qué sistemas usa.
  2. A continuación, la integración de datos reúne varios orígenes de datos en un conjunto de datos unificado o conectado.
  3. El siguiente paso es normalizar, estandarizar, armonizar y limpiar los datos para que las máquinas puedan procesarlos de forma uniforme, coherente y de alta fidelidad.
  4. Por último, los datos deben estar fácilmente disponibles para las necesidades empresariales.

Durante estos procesos, la gobernanza debe garantizar el control de los datos y la protección de la privacidad con una propiedad clara, trazabilidad completa y un seguimiento de auditoría de los orígenes, el procesamiento y el uso de los datos.

La plataforma CluedIn encapsula estos procesos y pilares de administración de datos en una solución de Administración de datos maestra (MDM) coherente, coherente y de un extremo a otro. CluedIn usa una técnica de integración de datos denominada conectividad eventual que produce mejores resultados que los modelos clásicos de extracción, transformación, carga (ETL) o extracción, carga y transformación (ELT). La conectividad eventual usa consultas de GraphQL para combinar datos sin problemas desde muchos orígenes de datos aislados.

Con la conectividad final, los datos no se combinan ni se mezclan al entrar o cargarse en otros sistemas. En su lugar, CluedIn carga los datos tal cual y etiqueta los registros mediante metadatos. Finalmente, los registros con las mismas etiquetas se combinan o crean una relación en el gráfico.

Esta sofisticada técnica de combinación de datos proporciona una base para las soluciones controladas por datos. CluedIn Data Fabric integra datos en una canalización que limpia, prepara, modela, controla, enriquece, desduplica y cataloga los datos para que estén fácilmente disponibles y accesibles para usos empresariales.

CluedIn proporciona a las empresas métricas sobre la calidad de los datos que ingiere, detectando de forma inteligente los datos sucios y preparándolo para su limpieza por parte de ingenieros de datos y administradores de datos. Los algoritmos propietarios de aprendizaje automático de lógica aproximada ayudan a los usuarios empresariales y conservadores a etiquetar los datos y a enseñar al sistema a identificar, corregir y evitar problemas de calidad de datos a lo largo del tiempo.

CluedIn incluye gobernanza de nivel empresarial, para asegurarse de que puede usar los datos de forma segura y segura. CluedIn puede transmitir datos limpios y controlados directamente a sistemas de análisis como Power BI, Azure Databricks, Azure Synapse Analytics o Azure Cognitive Services para que estén fácilmente disponibles para el resto de la empresa. La compatibilidad nativa con el escalado automático usa la eficacia de Azure para proporcionar un entorno escalable para las cargas de trabajo de datos más grandes.

Posibles casos de uso

Creación de una sola vista de datos

  • Debido al modelado semántico de CluedIn, hace que la creación de una vista única de los datos maestros sea algo más fácil de lograr en comparación con los enfoques tradicionales. Los clientes de CluedIn usan CluedIn para crear una vista conectada, histórica y de alta calidad de sus datos empresariales más críticos. CluedIn no solo admite el dominio de dominios maestros clásicos como Personas, empresas, proveedores y productos: admite y un número infinito de dominios diferentes, así como dominios no estructurados como archivos, correo, eventos, etc. Si necesita un repositorio centralizado de datos maestros limpios, enriquecidos, gobernados, controlados por la calidad y catalogados, CluedIn es una buena opción para los casos de uso.

Un tejido de datos

  • CluedIn es un proveedor de Gartner Cool en 2020, debido a su capacidad para organizar datos de 10, 100 y 1000 de orígenes de datos diferentes y complejos en un centro de datos unificado. Si necesita eliminar datos de muchos orígenes de datos diferentes con facilidad, CluedIn se puede usar como tejido de datos para lograr esto. Esto puede proporcionar una infraestructura de streaming para los datos que también puede limpiar y dominar de forma proactiva los datos a medida que fluyen a los consumidores de bajada.

Combinación sofisticada y vinculación de datos maestros

  • El enfoque de modelado de datos único de CluedIn utiliza una base de datos de grafos, que permite combinar datos complejos y vincularlos con simplicidad. A diferencia de los enfoques tradicionales, para resolver este desafío, CluedIn agrega más análisis de grafos y aprendizaje automático para combinar, combinar y vincular registros con una alta precisión.

Consideraciones

Estas consideraciones implementan los pilares de Azure Well-Architected Framework, que es un conjunto de principios rectores que se pueden usar para mejorar la calidad de una carga de trabajo. Para obtener más información, consulte Microsoft Azure Well-Architected Framework.

Confiabilidad

La confiabilidad garantiza que la aplicación pueda cumplir los compromisos que usted contrae con los clientes. Para obtener más información, consulte Información general sobre el pilar de confiabilidad.

  • CluedIn toma copias de seguridad de base de datos diarias automáticas y las mantiene en el almacenamiento a largo plazo durante 30 días de forma predeterminada. Toda la plataforma se basa en pilas redundantes y tolerantes a errores que mantienen copias de seguridad de todos los subsistemas. Los sistemas de supervisión durante todo el día garantizan que los servicios no estén tan contaminados como sea posible. CluedIn sigue las prácticas estándar del sector para la redundancia de la infraestructura.

  • CluedIn expone y almacena solo una representación de los datos, no la versión original. Si CluedIn detecta intrusiones de datos destructivas, puede borrar temporalmente los datos cluedIn de los servidores. Una vez que la intrusión desaparece, CluedIn vuelve a buscar los datos para volver a su estado original.

  • Todos los almacenes de datos se ejecutan en modo de alta disponibilidad.

Escalabilidad

  • CluedIn se ejecuta en contenedores de Docker y usa Kubernetes para hospedar y orquestar las distintas partes de la aplicación. Esta arquitectura significa que CluedIn funciona bien en entornos elásticos y se puede escalar automáticamente a los tamaños y la infraestructura necesarios.

  • La compatibilidad nativa con el escalado automático aplica la eficacia de Azure para proporcionar un entorno escalable para las cargas de trabajo de datos más grandes.

  • El modelado de grafos sin esquema deduce automáticamente un modelo de datos de los datos de origen. Los nuevos orígenes de datos se conectan automáticamente a todos los demás orígenes de datos, en lugar de tener que integrarse explícitamente. El número de orígenes de datos se puede escalar infinitamente sin aumentar la complejidad de la integración.

Seguridad

La seguridad proporciona garantías contra ataques deliberados y el abuso de sus valiosos datos y sistemas. Para obtener más información, consulte Información general sobre el pilar de seguridad.

  • La seguridad cluedIn concede permisos y controla el acceso a diferentes servicios a través de Azure RBAC, con el control de clave de seguridad de Azure Key Vault y el seguimiento y el registro de acceso de Azure Monitor.

  • Además de las cuentas de usuario autenticadas, CluedIn también admite el inicio de sesión único (SSO) y los marcos de identidad. Las solicitudes a la aplicación CluedIn usan tokens de acceso cifrados que no tienen ninguna correlación con la identidad del usuario.

  • CluedIn administra las representaciones de datos almacenadas detrás de varias capas de firewall y proxy, y las autentica con un conjunto de claves únicas.

  • CluedIn almacena todos los datos de origen con cifrado AES de 256 bits, que es más fuerte o igual que el nivel de cifrado de los orígenes de datos admitidos.

  • La limitación y la prevención csrf protegen el acceso a los datos.

DevOps

  • CluedIn usa canalizaciones de integración continua y entrega continua (CI/CD) de Azure Pipelines para controlar las implementaciones y las actualizaciones graduales en el entorno de AKS.

  • CluedIn admite pruebas unitarias, de integración y funcionales para garantizar que los datos se transformen según lo esperado. Las canalizaciones de procesamiento virtualizadas se pueden ejecutar en memoria para las pruebas de espacio aislado. Las aserciones de nivel de producción pueden ayudar a depurar y realizar un seguimiento de los problemas de datos.

  • Para entornos de prueba y producción, CluedIn proporciona un gráfico del administrador de paquetes de Helm para instalar CluedIn rápidamente en un clúster de Kubernetes. Los procesos de implementación de datos con scripts completos admiten la instalación, la prueba y el lanzamiento.

Optimización de costos

La optimización de costos consiste en examinar formas de reducir gastos innecesarios y mejorar la eficiencia operativa. Para obtener más información, vea Información general sobre el pilar de optimización de costos.

Los precios de CluedIn son abiertos y transparentes. Puede ver los precios en su sitio web.

Ajuste de tamaño de Azure e inicio de una prueba

Puede iniciar una prueba de 7 días de CluedIn en su sitio web, lo que también puede ayudarle a limitar los costos de hospedaje de Azure con estimaciones precompiladas de Azure para diferentes entornos de tamaño.

Implementación de este escenario

  • Para implementar CluedIn con fines de desarrollo y evaluación mediante Docker, consulte CluedIn con Docker.

  • Para instalar CluedIn rápidamente en un clúster de Kubernetes, consulte CluedIn con Kubernetes. El gráfico de Helm instala el servidor cluedIn, el sitio web y otros servicios necesarios, como el almacenamiento y las colas.

Pasos siguientes