Étendues (partitions de données)
S’applique à : ✅Microsoft Fabric✅Azure Data Explorer
Les tables sont partitionnées en étendues ou partitions de données. Chaque étendue est un segment horizontal de la table qui contient des données et des métadonnées telles que son temps de création et ses balises facultatives. L’union de toutes ces étendues contient l’ensemble du jeu de données de la table. Les étendues sont réparties uniformément entre les nœuds du cluster, et elles sont mises en cache dans ssd local et en mémoire pour des performances optimisées.
Les étendues sont immuables, ce qui signifie qu’elles peuvent être interrogées, réaffectées à un autre nœud ou supprimées de la table, mais jamais modifiées. La modification des données se produit en créant de nouvelles étendues et en échangeant transactionnellement les anciennes étendues avec les nouvelles. L’immuabilité des étendues offre des avantages tels que la robustesse accrue et la réversion facile vers les instantanés précédents.
Les étendues contiennent une collection d’enregistrements physiquement organisés dans des colonnes, ce qui permet un encodage et une compression efficaces des données. Pour maintenir l’efficacité des requêtes, les plus petites étendues sont fusionnées dans des étendues plus importantes en fonction de la stratégie de fusion configurée et de la stratégie de partitionnement. La fusion des étendues réduit la surcharge de gestion et entraîne l’optimisation de l’index et une compression améliorée.
Le cycle de vie de l’extension commune est le suivant :
- L’étendue est créée par une opération d’ingestion.
- L’étendue est fusionnée avec d’autres étendues.
- L’étendue fusionnée (éventuellement celle qui suit sa traçabilité dans d’autres étendues) est finalement supprimée en raison d’une stratégie de rétention.
Durée de création de l’étendue
Deux valeurs datetime sont suivies par étendue : MinCreatedOn
et MaxCreatedOn
. Ces valeurs sont initialement identiques, mais peuvent changer lorsque l’extension est fusionnée avec d’autres étendues. Lorsque l’étendue est fusionnée avec d’autres étendues, les nouvelles valeurs sont en fonction des valeurs minimales et maximales d’origine des étendues fusionnées.
L’heure de création d’une extension est utilisée à des fins suivantes :
- Rétention : les étendues créées précédemment sont supprimées.
- Mise en cache : les extensions créées récemment sont conservées dans le cache à chaud.
- Échantillonnage : les étendues récentes sont préférées lors de l’utilisation d’opérations de requête telles que la prise.
Pour remplacer l’heure de création d’une étendue, fournissez une alternative creationTime
dans les propriétés d’ingestion de données. Cela peut être utile à des fins de rétention, par exemple si vous souhaitez reingest des données, mais ne souhaitez pas qu’elles apparaissent comme si elles sont arrivées en retard.
Remarque
Le calcul de la suppression d’une étendue basée sur le temps utilise l’heure de création de l’étendue la plus récente dans l’étendue fusionnée.