Compartir a través de


Aceleración de consultas para accesos directos de OneLake: información general (versión preliminar)

Los accesos directos de OneLake son referencias de un centro de eventos que apuntan a orígenes externos o Fabric internos. Posteriormente se accede a este tipo de acceso directo para la consulta en conjuntos de consultas KQL mediante la función external_table(). Las consultas se ejecutan a través de accesos directos de OneLake pueden ser menos eficaces que en los datos que se ingieren directamente en Eventhouses debido a diversos factores, como las llamadas de red para capturar datos del almacenamiento, la ausencia de índices y mucho más.

La aceleración de consultas permite especificar una directiva sobre tablas delta externas que define el número de días para almacenar en caché los datos de las consultas de alto rendimiento.

La aceleración de consultas se admite en Eventhouse sobre tablas delta desde accesos directos de OneLake, Azure Data Lake Store Gen1, Amazon S3, Google Cloud Services, tablas externas de Azure Blob Storage y todos los destinos admitidos por los accesos directos de OneLake.

Importante

Esta característica se encuentra en versión preliminar.

Nota:

  • Si tiene consideraciones de cumplimiento que requieren almacenar datos en una región específica, asegúrese de que la capacidad de Eventhouse se encuentra en la misma región que la tabla externa o los datos de acceso directo.

  • Las tablas externas aceleradas se agregan al COGS de almacenamiento y al consumo de almacenamiento SSD de Eventhouse, similar a las tablas normales de la base de datos KQL. Puede controlar la cantidad de datos que se van a almacenar en caché definiendo la propiedad Hot en la directiva de aceleración de consultas. La actividad de indexación y ingesta también contribuye al uso de recursos de proceso.

¿Cuándo debo usar la aceleración de consultas para los accesos directos de OneLake?

La aceleración de consultas almacena en caché los datos a medida que llegan a OneLake, lo que proporciona un rendimiento comparable a la ingesta de datos en Eventhouse. Con esta característica, puede acelerar el aterrizaje de datos en OneLake, incluidos los datos existentes y las nuevas actualizaciones, y esperar un rendimiento similar. Esto elimina la necesidad de administrar canalizaciones de ingesta, mantener copias duplicadas de datos, a la vez que garantiza que los datos permanecen sincronizados sin esfuerzo adicional.

Los siguientes escenarios son ideales para usar la aceleración de consultas a través de accesos directos de OneLake:

  • Consulta de datos en OneLake con alto rendimiento: cuando tiene cargas de trabajo existentes que cargan datos y lo administran en el almacenamiento (opcionalmente en una nube o región diferente), y le gustaría consultar algunos o todos los datos con un alto rendimiento.
  • Combinar datos históricos con flujos en tiempo real: cuando desea combinar sin problemas el aterrizaje de datos en OneLake directamente con secuencias en tiempo real que llegan a Eventhouse sin poner en peligro las velocidades de consulta.
  • Aprovechar los datos de dimensión administrados por otros elementos: a menudo los datos de gran valor y volumen pequeño se hospedan en servidores SQL Server, Cosmos DB, Snowflake u otros sistemas que se pueden reflejar en OneLake. Los accesos directos de OneLake acelerados pueden hacer que estos datos se consuman fácilmente para las combinaciones y el enriquecimiento en la consulta de Eventhouse. Dado que los datos de dimensión suelen ser significativamente más pequeños que los datos de actividad, el costo adicional asociado a ese uso suele ser mínimo.

Comportamiento de tablas delta externas aceleradas

Los accesos directos acelerados de OneLake se comportan como tablas externas, con las mismas limitaciones y funcionalidades. En concreto, no se admiten características como la vista materializada y las directivas de actualización.

Supervisión del comportamiento de aceleración

El proceso inicial de aceleración de consultas depende del tamaño de la tabla externa. Para supervisar el progreso y la configuración de una tabla acelerada, use el comando .show external table operations query_acceleration statistics en un conjunto de consultas KQL.

Limitaciones

  • El número de columnas de la tabla externa no puede superar los 900.
  • El rendimiento de las consultas sobre tablas delta externas aceleradas que tienen particiones puede no ser óptima durante la versión preliminar.
  • La característica supone que las tablas delta con características avanzadas estáticas, por ejemplo, la asignación de columnas no cambia, las particiones no cambian, etc. Para cambiar las características avanzadas, deshabilite primero la directiva y, una vez realizado el cambio, vuelva a habilitar la directiva.
  • Los cambios de esquema en la tabla delta también deben seguirse con el esquema de tabla delta externa .alter correspondiente, lo que podría dar lugar a la aceleración a partir de cero si se produjo un cambio de esquema importante.
  • La eliminación basada en índices no se admite para las particiones.
  • Los archivos Parquet con un tamaño comprimido superior a 6 GB no se almacenarán en caché.

Facturación

Los datos acelerados se cobran en el medidor de caché OneLake Premium, similar a las tablas nativas de Eventhouse. Puede controlar la cantidad de datos que se aceleran configurando el número de días que se van a almacenar en caché. La actividad de indexación también puede contar para el consumo de CU. Para saber más, consulte Registros de Storage.

Los cargos relacionados con la aceleración de consultas aparecerán en la aplicación de métricas de Fabric en Eventhouse donde se crea el acceso directo acelerado.