Funcionamiento de Azure Data Explorer
Azure Data Explorer proporciona un rendimiento sin precedentes para ingerir y consultar datos de telemetría, registros, eventos, seguimientos y series temporales. Incluye formatos de almacenamiento optimizados, índices y usa estadísticas de datos avanzadas para la planificación eficaz de consultas y la ejecución de consultas compiladas Just-In-Time.
Almacenamiento frente a proceso
Azure Data Explorer separa el almacenamiento y los recursos de proceso. Los datos persistentes residen en Azure Blob Storage, mientras que los recursos de proceso pueden almacenar datos temporales o actuar como caché para el almacenamiento persistente.
Esta separación proporciona las siguientes ventajas:
- Escalabilidad horizontal independiente de los recursos de almacenamiento y proceso.
- Accesibilidad a datos idénticos en varios clústeres de proceso. Para obtener más información, consulte Data Share.
- Optimización de SKU. Para más información, consulte Selección de una SKU para el clúster.
Almacenamiento de datos
Azure Data Explorer crea particiones de todos los datos ingeridos en extensiones o particiones de datos, que son segmentos horizontales de la tabla de destino. Una extensión puede comenzar tan pequeña como un único registro. A medida que los datos se acumulan en la tabla, Azure Data Explorer combina automáticamente extensiones hasta que crecen para abarcar millones de registros. Cada extensión se codifica e indexa independientemente de otras extensiones. Esta funcionalidad contribuye al rendimiento de ingesta de la ingesta de escala lineal.
Las extensiones se distribuyen uniformemente entre los nodos del clúster, donde se almacenan en caché tanto en el SSD local como en la memoria. Esta distribución mejora la capacidad de preparar y ejecutar consultas muy distribuidas y paralelas.
Para obtener más información sobre el almacenamiento de datos, consulte Información general sobre extensiones.
Nota:
Azure Data Explorer también conserva metadatos esenciales, como esquemas de tabla y objetos de directiva. Para obtener una lista de directivas, consulte Introducción a las directivas.
Caché de datos
Azure Data Explorer tiene un sistema de caché de datos de varias jerarquías para asegurarse de que los datos más relevantes se almacenan en caché lo más cerca posible de la CPU. El sistema de caché depende de la inmutabilidad de las extensiones y funciona completamente con datos comprimidos. Para mejorar el rendimiento de las consultas, los datos permanecen comprimidos incluso en ram y solo se descomprimen cuando es necesario para una consulta.
Para obtener más información sobre el almacenamiento en caché, consulte Directiva de caché.
indexación de textos
Azure Data Explorer está diseñado para indexar de forma eficaz columnas de texto libre (cadena) y de tipo JSON (dinámicos) a medida que se ingieren datos. Los índices mantienen un nivel de granularidad que permite la evaluación de partes de la consulta en función del índice sin examinar los datos.
La optimización continua en segundo plano de extensiones mediante la combinación mejora la compresión y la indexación, lo que garantiza un almacenamiento eficaz y una baja latencia de consulta. Una vez que las extensiones alcanzan un tamaño determinado, solo los índices se combinan para mejorar el rendimiento de las consultas sin poner en peligro la eficacia.
Para obtener más información sobre la extensión y la combinación de índices, consulte Directiva de combinación.
Almacén de filas
Azure Data Explorer ofrece una solución de almacenamiento intermedia denominada almacén de filas. El almacén de filas permite la ingesta eficaz de pequeñas partes de datos y garantiza que estos datos estén disponibles inmediatamente para la consulta. Al habilitar la ingesta de streaming en el clúster, los datos se ingieren inicialmente en el almacén de filas y, a continuación, se mueven a extensiones de almacén de columnas.
Para obtener más información, consulte Procesamiento por lotes frente a ingesta de streaming.
Compresión de columnas
Azure Data Explorer mantiene los datos en un estado comprimido, lo que reduce la cantidad de memoria necesaria para almacenar y procesar datos. Este comportamiento da como resultado un rendimiento de consulta más rápido y un uso más eficaz de los recursos del sistema.
Azure Data Explorer evita la compresión vertical, lo que implica ordenar los datos para mejorar la compresión, debido a su alto costo de CPU en escenarios de datos semiestructurados o de texto libre. En su lugar, puede especificar el criterio de ordenación de datos preferido para escenarios con patrones de consulta dominantes. Esta compensación da prioridad a la disponibilidad rápida de los datos para las consultas.
Para obtener más información sobre cómo especificar el criterio de ordenación de datos, consulte Directiva de orden de fila.
Consulta de datos distribuidos
Azure Data Explorer usa la tecnología de consulta de datos distribuida diseñada para un análisis ad hoc rápido en grandes conjuntos de datos no estructurados. Entre las características clave de esta tecnología se incluyen las siguientes:
- Los datos temporales generados por consultas se almacenan en ram agregado
- Las extensiones pertinentes se marcan en un plan de consulta, lo que proporciona aislamiento de instantáneas.
- Las consultas rápidas y eficaces tienen prioridad con tiempos de espera cortos predeterminados
- Compatibilidad nativa con consultas entre clústeres que minimizan el intercambio de datos entre clústeres
- Las consultas se compilan just-in-time en código de máquina altamente eficiente, mediante estadísticas de datos de todas las extensiones y adaptadas a los detalles de codificación de columnas
Nota:
Azure Data Explorer está diseñado para trabajar con el Lenguaje de consulta Kusto (KQL), creado de forma personalizada para Azure Data Explorer. Además, se admite T-SQL .