Identificación de los servicios de datos
Microsoft Azure es una plataforma de nube que usan las aplicaciones y la infraestructura de TI de algunas de las organizaciones más grandes del mundo. Incluye numerosos servicios para admitir soluciones en la nube, incluidas cargas de trabajo de datos transaccionales y analíticos.
A continuación se describen algunos de los servicios en la nube que se usan más a menudo para los datos.
Nota:
En este tema se tratan solo algunos de los servicios de datos más usados para soluciones transaccionales y analíticas modernas. Hay disponibles otros servicios.
Azure SQL
Azure SQL es el nombre colectivo de una familia de soluciones de base de datos relacionales basadas en el motor de base de datos de Microsoft SQL Server. Los servicios específicos de Azure SQL incluyen:
- Azure SQL Database: una base de datos de plataforma como servicio (PaaS) totalmente administrada hospedada en Azure.
- Azure SQL Managed Instance: es una instancia hospedada de SQL Server con mantenimiento automatizado, que permite una configuración más flexible que Azure SQL Database, pero con más responsabilidad administrativa para el propietario.
- Máquina virtual de Azure SQL: consiste en una máquina virtual con una instalación de SQL Server, lo que ofrece una capacidad de configuración máxima con una responsabilidad de administración completa.
Normalmente, los administradores de bases de datos aprovisionan y administran sistemas de bases de datos de Azure SQL para admitir aplicaciones de línea de negocio (LOB) que necesitan almacenar datos transaccionales.
Los ingenieros de datos pueden usar sistemas de bases de datos de Azure SQL como orígenes para canalizaciones de datos que realizan operaciones de extracción, transformación y carga (ETL) para ingerir los datos transaccionales en un sistema analítico.
Los analistas de datos pueden consultar las bases de datos de Azure SQL directamente para crear informes, aunque en organizaciones grandes los datos suelen combinarse con datos de otros orígenes en un almacén de datos analíticos para admitir análisis empresariales.
Bases de datos de código abierto de Azure
Azure incluye servicios administrados para sistemas populares de bases de datos relacionales de código abierto, entre los que se incluyen:
Azure Database for MySQL: consiste en un sistema de administración de bases de datos de código abierto fácil de usar que suele emplearse en aplicaciones de pila de Linux, Apache, MySQL y PHP (LAMP).
Azure Database for MariaDB: es un sistema de administración de bases de datos más reciente que han creado los desarrolladores originales de MySQL. El motor de base de datos se ha reescrito y se ha optimizado para mejorar el rendimiento. MariaDB ofrece compatibilidad con Oracle Database (otro sistema de administración de bases de datos comerciales conocido).
Azure Database for PostgreSQL: se trata de una base de datos híbrida de objetos relacionales. Una base de datos de PostgreSQL permite almacenar datos en tablas relacionales, pero también tipos de datos personalizados con sus propias propiedades no relacionales.
Al igual que sucede con los sistemas de bases de datos de Azure SQL, los administradores de bases de datos son los responsables de administrar las bases de datos relacionales de código abierto para admitir aplicaciones transaccionales. Dichas bases de datos proporcionan un origen de datos para los ingenieros de datos que crean canalizaciones destinadas a soluciones analíticas, así como para los analistas de datos que crean informes.
Azure Cosmos DB
Azure Cosmos DB es un sistema de base de datos no relacional (NoSQL) a escala global que admite varias interfaces de programación de aplicaciones (API), lo que permite almacenar y administrar datos como documentos JSON, pares clave-valor, familias de columnas y gráficos.
En algunas organizaciones, los administradores de base de datos pueden aprovisionar y administrar las instancias de Cosmos DB, aunque suelen ser los desarrolladores de software quienes administran el almacenamiento de datos NoSQL como parte de la arquitectura general de la aplicación. A menudo, los ingenieros de datos necesitan integrar orígenes de datos de Cosmos DB en soluciones analíticas empresariales que admitan el modelado y la elaboración de informes por parte de los analistas de datos.
Azure Storage
Azure Storage es un servicio básico de Azure que permite almacenar datos en:
- Contenedores de blobs: almacenamiento escalable y rentable para archivos binarios.
- Recursos compartidos de archivos: recursos compartidos de archivos de red, como es habitual en redes corporativas.
- Tablas: almacenamiento de clave-valor para aplicaciones que necesitan leer y escribir valores de datos rápidamente.
Los ingenieros de datos usan Azure Storage para hospedar lagos de datos, es decir, almacenamiento de blobs con un espacio de nombres jerárquico que permite organizar los archivos en carpetas en un sistema de archivos distribuido.
Azure Data Factory
Azure Data Factory es un servicio de Azure que permite definir y programar canalizaciones de datos para transferir y transformar datos. Puede integrar las canalizaciones con otros servicios de Azure, lo que le permite ingerir datos de almacenes de datos en la nube, procesar los datos mediante procesos basados en la nube y conservar los resultados en otro almacén de datos.
Los ingenieros de datos usan Azure Data Factory para compilar soluciones de extracción, transformación y carga (ETL) que rellenan almacenes de datos analíticos con datos de sistemas transaccionales de toda la organización.
Microsoft Fabric
Microsoft Fabric es una plataforma unificada de análisis de software como servicio (SaaS) basada en almacén de lago de datos abierto y regulado que incluye funcionalidad para admitir:
- Ingesta de datos y ETL
- Análisis de almacén de lago de datos
- Análisis de almacenamiento de datos
- Ciencia de datos y aprendizaje automático
- Análisis en tiempo real
- Visualización de datos
- Gobernanza y administración de datos
- Información basada en inteligencia artificial
Los ingenieros de datos pueden usar Microsoft Fabric para crear una solución unificada de análisis de datos que combina canalizaciones de ingesta de datos, almacenes de datos, análisis en tiempo real, inteligencia empresarial e información basada en inteligencia artificial a través de un único servicio que se almacena de forma centralizada con Microsoft OneLake.
Azure Databricks
Azure Databricks es una versión integrada de Azure de la popular plataforma Databricks, que combina la plataforma de procesamiento de datos de Apache Spark con la semántica de base de datos SQL y una interfaz de administración integrada para habilitar el análisis de datos a gran escala.
Los ingenieros de datos pueden usar las capacidades de Databricks y Spark para crear almacenes de datos analíticos en Azure Databricks.
Los analistas de datos pueden usar la compatibilidad nativa con cuadernos en Azure Databricks para consultar y visualizar datos en una interfaz basada en web fácil de usar.
Azure Stream Analytics
Azure Stream Analytics es un motor de procesamiento de flujos en tiempo real que captura un flujo de datos de una entrada, aplica una consulta para extraer y manipular los datos del flujo de entrada y escribe los resultados en una salida para su análisis o procesamiento posterior.
Los ingenieros de datos pueden incorporar Azure Stream Analytics en arquitecturas de análisis de datos que capturan datos de streaming para su ingesta en un almacén de datos analíticos o para su visualización en tiempo real.
Azure Data Explorer
Azure Data Explorer es una plataforma de análisis de macrodatos totalmente administrada e independiente que ofrece consultas de alto rendimiento de datos de registro y telemetría.
Los analistas de datos pueden usar Azure Data Explorer para consultar y analizar datos que incluyan un atributo de marca de tiempo, como es habitual en los archivos de registro y los datos de telemetría de IoT (Internet de las cosas).
Microsoft Purview
Microsoft Purview proporciona una solución para la gobernanza y la detectabilidad de datos de toda la empresa. Puede usar Microsoft Purview para crear un mapa de los datos y realizar un seguimiento del linaje de datos en varios orígenes de datos y sistemas, lo que le permite encontrar datos de confianza para el análisis y la elaboración de informes.
Los ingenieros de datos pueden usar Microsoft Purview para aplicar la gobernanza de datos en toda la empresa y garantizar la integridad de los datos que se usan para admitir cargas de trabajo analíticas.