Superviser l’utilisation en utilisant des étiquettes

Article
10/18/2024

Pour superviser les coûts et attribuer avec précision l’utilisation d’Azure Databricks aux unités et équipes commerciales de votre organisation (pour les rétrofacturations, par exemple), vous pouvez étiqueter les espaces de travail (groupes de ressources) et les ressources de calcul. Ces étiquettes s’étendent aux rapports d’analyse des coûts détaillés auxquels vous pouvez accéder dans le portail Azure.

Voici un rapport des détails de la facture d’analyse des coûts dans le Portail Azure qui détaille le coût par étiquette clusterid sur une période d’un mois :

Analyse des coûts par ID de cluster

Ressources et objets étiquetés

Object	Interface d’étiquetage (IU)	Interface d’étiquetage (API)
Espace de travail	Portail Azure	API des ressources Azure
pool	Interface utilisateur des pools dans l’espace de travail Azure Databricks	API du pool d’instances
Calculs polyvalents et calculs de tâches	Interface utilisateur de calcul dans l’espace de travail Azure Databricks	API Clusters
Entrepôt SQL	Interface utilisateur de l’entrepôt SQL dans l’espace de travail Azure Databricks	API Warehouses

Avertissement

N’assignez pas de balise personnalisée avec la clé Name à un cluster. Chaque cluster possède une balise Name dont la valeur est définie par Azure Databricks. Si vous modifiez la valeur associée à la clé Name , le suivi du cluster ne peut plus être effectué par Azure Databricks. Par conséquent, il se peut que le cluster ne se termine pas après avoir été inactif et continue à entraîner des coûts d’utilisation.

Balises par défaut

Azure Databricks ajoute les balises par défaut suivantes à l’unité de calcul polyvalente :

Clé à étiquettes	Valeur
`Vendor`	Valeur constante : `Databricks`
`ClusterId`	ID interne Azure Databricks du cluster
`ClusterName`	Nom du cluster
`Creator`	Nom d’utilisateur (adresse e-mail) de l’utilisateur qui a créé le cluster

Sur les clusters de travail, Azure Databricks applique également les étiquettes par défaut suivantes :

Clé à étiquettes	Valeur
`RunName`	Nom du travail
`JobId`	ID de travail

Azure Databricks ajoute les étiquettes par défaut suivantes à tous les pools :

Clé à étiquettes	Valeur
`Vendor`	Valeur constante : `Databricks`
`DatabricksInstancePoolCreatorId`	ID interne Azure Databricks de l’utilisateur qui a créé le pool
`DatabricksInstancePoolId`	ID interne Azure Databricks du pool

Sur l’ordinateur utilisé par Lakehouse Monitoring, Azure Databricks applique également les balises suivantes :

Clé à étiquettes	Valeur
`LakehouseMonitoring`	true
`LakehouseMonitoringTableId`	ID de la table surveillée
`LakehouseMonitoringWorkspaceId`	ID de l'espace de travail où le moniteur a été créé
`LakehouseMonitoringMetastoreId`	ID du métastore où existe la table surveillée

Propagation des étiquettes

Les étiquettes d’espace de travail, de pool et de cluster sont agrégées par Azure Databricks et propagées aux machines virtuelles Azure à des fins de création de rapports d’analyse des coûts. Toutefois, les balises du pool et du cluster sont propagées différemment les uns des autres.

Hiérarchie de l’étiquetage des objets Databricks

Les étiquettes d’espace de travail et de pool sont agrégées et affectées en tant qu’étiquettes de ressource des machines virtuelles Azure qui hébergent les pools.

Les étiquettes d’espace de travail et de cluster sont agrégées et affectées en tant qu’étiquettes de ressource des machines virtuelles Azure qui hébergent les clusters.

Lorsque les clusters sont créés à partir de pools, seules les étiquettes d’espace de travail et les étiquettes de pool sont propagées aux machines virtuelles. Les étiquettes de cluster ne sont pas propagées afin de conserver les performances de démarrage du cluster de pool.

Résolution des conflits d’étiquettes

Si une étiquette personnalisée de cluster, de pool ou d’espace de travail porte le même nom qu’une étiquette de pool ou de cluster par défaut Azure Databricks, l’étiquette personnalisée est dotée du préfixe x_ quand elle est propagée.

Par exemple, si un espace de travail est étiqueté avec vendor = Azure Databricks, cette étiquette est en conflit avec l’étiquette de cluster par défaut vendor = Databricks. Les étiquettes sont donc propagées en tant que x_vendor = Azure Databricks et vendor = Databricks.

Limites

Il peut falloir jusqu’à une heure pour que les étiquettes d’espace de travail personnalisées se propagent à Azure Databricks après toute modification.
Vous ne pouvez pas assigner plus de 50 étiquettes à une ressource Azure. Si le nombre total d’étiquettes agrégées dépasse cette limite, les étiquettes dotées du préfixe x_ sont évaluées dans l’ordre alphabétique et celles qui dépassent la limite sont ignorées. Si toutes les étiquettes dotées du préfixe x_ sont ignorées et que le nombre dépasse toujours la limite, les étiquettes restantes sont évaluées dans l’ordre alphabétique et celles qui dépassent la limite sont ignorées.
Les touches de balise et les valeurs ne peuvent contenir que des lettres, des espaces, des chiffres ou des caractères +, , -, =, ._, :, /, @. Les balises contenant d’autres caractères ne sont pas valides.
Si vous modifiez les noms ou les valeurs de clé d’étiquette, ces modifications s’appliquent uniquement après le redémarrage du cluster ou le développement du pool.
Si les étiquettes personnalisées du cluster sont en conflit avec les étiquettes personnalisées d’un pool, le cluster ne peut pas être créé.

Application d’étiquettes avec des stratégies

Vous pouvez appliquer des étiquettes aux clusters à l’aide de stratégies de calcul. Pour plus d’informations, consultez Application d’étiquettes personnalisées.

Partager via