Compartir a través de


Arquitectura de Data Lakehouse: marco bien diseñado de Databricks

Este conjunto de artículos de arquitectura de Data Lakehouse proporciona principios y procedimientos recomendados para la implementación y el funcionamiento de una instancia de Lakehouse mediante Azure Databricks.

Marco bien diseñado para Databricks para el almacén de lago

Marco bien diseñado: diagrama de almacén de lago de datos.

El almacén de lago bien diseñado consta de 7 pilares que describen diferentes áreas de preocupación para la implementación de un almacén de lago de datos en la nube:

  • Gobernanza de datos

    La supervisión que sirve asegurarse de que los datos aportan valor y admiten la estrategia empresarial.

  • Interoperabilidad y facilidad de uso

    La capacidad del almacén de lago para interactuar con los usuarios y otros sistemas.

  • Excelencia operativa

    Todos los procesos de operaciones que mantienen el almacén de lago ejecutándose en producción.

  • Seguridad, privacidad y cumplimiento

    Proteja la aplicación de Azure Databricks, las cargas de trabajo de los clientes y los datos de los clientes frente a amenazas.

  • Confiabilidad

    La capacidad de un sistema de recuperarse de los errores y seguir funcionando.

  • Eficacia del rendimiento

    La capacidad de un sistema para adaptarse a los cambios en la carga.

  • Optimización de costos

    Administración de costos para maximizar el valor proporcionado.

El almacén de lago con buena arquitectura extiende el Marco de buena arquitectura de Microsoft Azure a la plataforma de Data Intelligence de Databricks y comparte los pilares de "Excelencia operativa", "Seguridad" (como "Seguridad, privacidad y cumplimiento"), "Fiabilidad", "Eficiencia en el rendimiento" y "Optimización de costes".

Para estos cinco pilares, los principios y procedimientos recomendados del marco de trabajo en la nube se siguen aplicando al almacén de lago. El almacén de lago con buena arquitectura los amplía con principios y procedimientos recomendados que son específicos del almacén de lago e importantes para desarrollar un almacén de lago eficaz y eficiente.

Gobernanza de datos e interoperabilidad y usabilidad en arquitecturas del almacén de lago

Los pilares "Gobernanza de datos" e "Interoperabilidad y usabilidad" abarcan preocupaciones específicas del almacén de lago.

La gobernanza de datos encapsula las directivas y prácticas que se implementan para administrar de manera segura los recursos de datos en una organización. Uno de los aspectos fundamentales de una instancia de almacén de lago es la gobernanza centralizada de datos: el almacén de lago unifica el almacenamiento de datos y la inteligencia artificial usa casos en una sola plataforma. Esto simplifica la pila de datos moderna mediante la eliminación de los silos de datos que tradicionalmente separan y complican la ingeniería de datos, el análisis, la BI, la ciencia de datos y el aprendizaje automático. Para simplificar la gobernanza de datos, el almacén de lago ofrece una solución de gobernanza unificada para datos, análisis e inteligencia artificial. Al minimizar las copias de los datos y pasar a una única capa de procesamiento de datos en la que todos los controles de gobernanza de datos se pueden ejecutar juntos, mejorará las posibilidades de permanecer en cumplimiento y detectar una vulneración de datos.

Otro principio importante del almacén de lago es proporcionar una excelente experiencia de usuario para todos los roles que trabajan con él y para poder interactuar con un amplio ecosistema de sistemas externos. Azure ya tiene una variedad de herramientas de datos que realizan la mayoría de las tareas que puede necesitar una empresa controlada por datos. Sin embargo, estas herramientas deben ensamblarse correctamente para proporcionar toda la funcionalidad, con cada servicio que ofrece una experiencia de usuario diferente. Este enfoque puede dar lugar a altos costos de implementación y normalmente no proporciona la misma experiencia de usuario que una plataforma nativa del almacén de lago: los usuarios están limitados por incoherencias entre las herramientas y la falta de funcionalidades de colaboración, y a menudo tienen que pasar por procesos complejos para obtener acceso al sistema y, por tanto, a los datos.

Un almacén de lago integrado en el otro lado proporciona una experiencia de usuario coherente en todas las cargas de trabajo y, por lo tanto, aumenta la facilidad de uso. Esto reduce los costos de entrenamiento e incorporación y mejora la colaboración entre las funciones. Además, las nuevas características se agregan automáticamente a lo largo del tiempo, para mejorar aún más la experiencia del usuario, sin necesidad de invertir recursos internos y presupuestos.

Un enfoque multinube puede ser una estrategia deliberada de una empresa o el resultado de fusiones y adquisiciones o unidades de negocio independientes que seleccionan diferentes proveedores de nube. En este caso, el uso de una instancia de almacén de lago multinube da como resultado una experiencia de usuario unificada en todas las nubes. Esto reduce la proliferación de sistemas en toda la empresa, lo que a su vez reduce los requisitos de aptitud y formación de los empleados implicados en tareas controladas por datos.

Por último, en un mundo en red con procesos empresariales multiplataforma, los sistemas deben trabajar juntos lo más perfectamente posible. El grado de interoperabilidad es un criterio fundamental aquí, y los datos más recientes, como recurso principal de cualquier negocio, deben fluir de forma segura entre los sistemas de asociados internos y externos.

Instrucciones y procedimientos recomendados