Surveiller plusieurs clusters Azure Stack HCI, version 23H2 avec Insights

Article
07/31/2024

S’applique à : Azure Stack HCI, version 23H2

Cet article explique comment utiliser Insights pour surveiller plusieurs clusters Azure Stack HCI. Pour un seul cluster Azure Stack HCI, consultez Surveiller Azure Stack HCI avec Insights.

Pour plus d’informations sur les avantages, les prérequis et la façon d’activer Insights sur chaque cluster, consultez Avantages, Prérequis et Activer Insights.

Pour surveiller plusieurs clusters avec Insights, vous devez activer Insights sur chaque cluster individuellement. Au lieu de cela, vous pouvez activer Insights à grande échelle à l’aide de stratégies Azure. Pour plus d’informations, consultez Activer Insights pour Azure Stack HCI à grande échelle à l’aide de stratégies Azure.

Regardez la vidéo de présentation rapide :

Passer en revue les informations relatives à l’intégrité, aux performances et à l’utilisation

Insights stocke ses données dans un espace de travail Log Analytique, ce qui lui permet de fournir une agrégation et un filtrage puissants et d’analyser les tendances des données au fil du temps. Il n’y a aucun coût direct pour Insights. Les utilisateurs sont facturés en fonction de la quantité de données ingérées et des paramètres de rétention des données de leur espace de travail Log Analytics.

Vous pouvez accéder à Insights à partir d’Azure Monitor>Insights>Azure Stack HCI. Utilisez les onglets suivants pour basculer entre les vues : ajouter à la surveillance, à l’intégrité du cluster, aux serveurs, aux machines virtuelles et au stockage.

Filtrage des résultats

La visualisation peut être filtrée d’un abonnement à l’autre. Vous pouvez filtrer les résultats en fonction des menus déroulants suivantes :

Intervalle de temps : Ce filtre vous permet de sélectionner une plage pour l’affichage des tendances. La valeur par défaut est 24 heures.
Abonnements : Montre les abonnements qui ont des clusters Azure Stack HCI inscrits. Vous pouvez sélectionner plusieurs abonnements dans ce filtre.
Clusters HCI : répertorie les clusters Azure Stack HCI inscrits dont les journaux et les fonctionnalités de supervision activées dans l’intervalle de temps sélectionné. Vous pouvez sélectionner plusieurs clusters à partir de ce filtre.
Groupes de ressources : Ce filtre vous permet de sélectionner tous les clusters au sein d’un groupe de ressources.

Ajouter à la surveillance

Cette fonctionnalité fournit des détails sur les clusters qui ne sont pas surveillés par l’utilisateur. Pour commencer à surveiller un cluster, sélectionnez-le pour ouvrir ce cluster, puis sélectionnez Fonctionnalités > Insights. Si vous ne voyez pas votre cluster, assurez-vous qu’il a été récemment connecté à Azure.

Colonne	Description	Exemple
Cluster	Nom du cluster.	27cls1
État de la connexion Azure	État de la ressource HCI.	Connecté
Version du système d’exploitation	Le système d’exploitation s’appuie sur le serveur.	10.0.20348.10131

Par défaut, l’affichage de grille affiche les 250 premières lignes. Vous pouvez définir la valeur en modifiant les lignes de grille, comme illustré dans l’image suivante :

Vous pouvez exporter les détails dans Excel en sélectionnant Exporter vers Excel, comme illustré dans l’image suivante :

Excel fournira l’état de connexion Azure comme suit :

0 : Non inscrit
1 : Déconnecté
2 : Pas récemment
3 Connecté

Intégrité du cluster

Cet affichage fournit une présentation de l’état des clusters.

Colonne	Description	Exemple
Cluster	Nom du cluster.	27cls1
Dernière mise à jour	Timestamp de la dernière mise à jour du serveur.	09/04/2022 12:15:42
État	Fournit l’intégrité des ressources du serveur dans le cluster. Il peut être sain, en avertissement, critique ou autre.	Healthy
Ressource défaillante	Description de la ressource à l’origine de l’erreur.	Serveur, StoragePool, Sous-système
Nombre total de serveurs	Nombre de serveurs au sein d’un cluster.	4

Si votre cluster est manquant ou affiche l’état Autre, accédez à l’espace de travail Log Analytics utilisé pour le cluster et assurez-vous que la configuration de l’agent capture des données à partir du journal microsoft-windows-health/opérationnel. Vérifiez également que les clusters sont connectés récemment à Azure et vérifiez que les clusters ne sont pas filtrés dans ce classeur.

Serveur

Cette vue fournit une vue d’ensemble de l’intégrité et des performances du serveur, ainsi que de l’utilisation des clusters sélectionnés. Cette vue est créée à l’aide de l'ID d’événement de serveur 3000 du canal Microsoft-Windows-SDDC-Management/Operational Windows Event Log. Chaque ligne peut être développée pour afficher l’état d’intégrité du nœud. Vous pouvez interagir avec la ressource de cluster et de serveur pour accéder à la page de ressources correspondante.

Machines virtuelles

Cet affichage indique l’état de toutes les machines virtuelles dans le cluster sélectionné. Cette vue est créée à l’aide de l’ID d’événement de la machine virtuelle 3003 du canal Microsoft-Windows-SDDC-Management/Operational Windows Event Log. Chaque ligne peut être développée pour afficher la distribution des machines virtuelles sur les serveurs du cluster. Vous pouvez interagir avec la ressource de cluster et de nœud pour accéder à la page de ressources correspondante.

Métrique	Description	Exemple
Cluster > Serveur	Nom du cluster. Lors de l’extension, il affiche les serveurs au sein du cluster.	Sample-VM-1
Dernière mise à jour	Le datetimestamp de la date de la dernière mise à jour du serveur.	09/04/2022 12:24:02
Nombre total de machines virtuelles	Nombre de machines virtuelles dans un nœud de serveur au sein d’un cluster.	1 sur 2 en cours d’exécution
Exécution	Nombre de machines virtuelles en cours d’exécution dans un nœud de serveur au sein d’un cluster.	2
Arrêté	Nombre de machines virtuelles arrêtées dans un nœud de serveur au sein d’un cluster.	3
Échec	Nombre de machines virtuelles ayant échoué dans un nœud de serveur au sein d’un cluster.	2
Other	Si la machine virtuelle se trouve dans l’un des états suivants (Inconnu, Démarrage, Capture instantanée, Enregistrement, Arrêt, Suspension, Reprise, Pause, Suspendu), il est considéré comme « Autre ».	2

Stockage

Cet affichage montre l’intégrité des volumes, de l’utilisation et des performances entre les clusters analysés. Développez un cluster pour voir l’état des volumes individuels. Cette vue est créée à l’aide de l'ID d’événement de volume 3002 du canal Microsoft-Windows-SDDC-Management/Operational Windows Event Log. Les vignettes situées en haut fournissent une vue d’ensemble de l’intégrité du stockage.

Métrique	Description	Exemple
Cluster > Volume	Nom du cluster. En cas d’extension, il affiche les volumes au sein d’un cluster.	AltaylCluster1 > ClusterPerformanceHistory
Dernière mise à jour	Le datetimestamp de la date de la dernière mise à jour du stockage.	14/04/2022 14:58:55
Intégrité du volume	L’état du volume. Il peut être sain, en avertissement, critique ou autre.	Healthy
Taille	Capacité totale de l’appareil en octets pendant la période de reporting.	25 bits
Usage	Pourcentage de capacité disponible pendant la période de reporting.	23,54 %
Iops	Opérations d’entrée/sortie par seconde.	45/s
Tendance	Tendance des IOPS.
Débit	Nombre d’octets par seconde servis par Application Gateway.	5 bits/s
Tendance (bits/s)	Tendance de débit.
Latence moyenne	La latence est le temps moyen nécessaire à la fin de la demande d’E/S.	334 μs

Personnaliser insights

Étant donné que l’expérience utilisateur est basée sur des modèles de classeur Azure Monitor, les utilisateurs peuvent modifier les visualisations et les requêtes et les enregistrer sous la forme d’un classeur personnalisé.

Si vous utilisez la visualisation à partir d’Azure Monitor Insights Hub > Azure Stack HCI, sélectionnez Personnaliser l’enregistrement > > sous pour enregistrer une copie de votre version modifiée dans > un classeur personnalisé.

Les classeurs sont enregistrés dans un groupe de ressources. Toute personne ayant accès au groupe de ressources est en mesure d’accéder au classeur personnalisé.

La plupart des requêtes sont écrites à l’aide du langage de requête Kusto (KQL). Certaines requêtes sont écrites à l’aide de la Requête Resource Graph. Pour plus d’informations, consultez les articles suivants :

Support

Pour ouvrir un ticket de support pour Insights, utilisez le type de service Insights pour Azure Stack HCI sous Surveillance &Gestion.

Canal du journal des événements

Les vues d’insights et de surveillance sont basées sur le canal du journal des événements Windows opérationnel/Microsoft-Windows-SDDC.Management/Operational Windows. Quand la supervision est activée, les données issues de ce canal sont enregistrées dans un espace de travail Log Analytics.

Affichage et modification de l’intervalle du cache de vidage

L’intervalle par défaut pour le vidage du cache est défini à 3 600 secondes (1 heure).

Utilisez les applets de commande PowerShell suivantes pour afficher la valeur de l’intervalle de vidage du cache :

Get-ClusterResource "sddc management" | Get-ClusterParameter

Utilisez les applets de commande suivantes pour modifier la fréquence de vidage du cache. Si cette valeur est définie sur 0, la publication des événements est arrêtée :

Get-ClusterResource "sddc management" | Set-ClusterParameter -Name CacheDumpIntervalInSeconds -Value <value in seconds>

Événements Windows sur le canal du journal

Ce canal comprend cinq événements. Chaque événement est associé au nom du cluster et à l’ID Azure Resource Manager comme EventData.

ID d'événement	Type d’événement
3000	Serveur
3001	Drive
3002	Volume
3003	Machine virtuelle
3004	Cluster

Valeur de colonne RenderedDescription pour l’événement de serveur 3000

{
   "m_servers":[
      {
         "m_statusCategory":"Integer",
         "m_status":[
            "Integer",
            "…"
         ],
         "m_id":"String",
         "m_name":"String",
         "m_totalPhysicalMemoryInBytes":"Integer",
         "m_usedPhysicalMemoryInBytes":"Integer",
         "m_totalProcessorsUsedPercentage":"Integer",
         "m_totalClockSpeedInMHz":"Integer",
         "m_uptimeInSeconds":"Integer",
         "m_InboundNetworkUsage":"Double (Bits/sec)",
         "m_OutboundNetworkUsage":"Double (Bits/sec)",
         "m_InboundRdmaUsage":"Double (Bits/sec)",
         "m_OutboundRdmaUsage":"Double (Bits/sec)",
         "m_site":"String",
         "m_location":"String",
         "m_vm":{
            "m_totalVmsUnknown":"Integer",
            "m_totalVmsRunning":"Integer",
            "m_totalVmsStopped":"Integer",
            "m_totalVmsFailed":"Integer",
            "m_totalVmsPaused":"Integer",
            "m_totalVmsSuspended":"Integer",
            "m_totalVmsStarting":"Integer",
            "m_totalVmsSnapshotting":"Integer",
            "m_totalVmsSaving":"Integer",
            "m_totalVmsStopping":"Integer",
            "m_totalVmsPausing":"Integer",
            "m_totalVmsResuming":"Integer"
         },
         "m_osVersion":"String",
         "m_buildNumber":"String",
         "m_totalPhysicalProcessors":"Integer",
         "m_totalLogicalProcessors":"Integer"
      },
      "…"
   ],
   "m_alerts":{
      "m_totalUnknown":"Integer",
      "m_totalHealthy":"Integer",
      "m_totalWarning":"Integer",
      "m_totalCritical":"Integer"
   }
}

La plupart des variables sont explicites à partir des informations JSON. Toutefois, le tableau suivant répertorie quelques variables qui sont un peu plus difficiles à comprendre.

Variable	Description
m_servers	Tableau de nœuds de serveur.
m_statusCategory	État d’intégrité du serveur.
m_status	État du serveur. Il s’agit d’un tableau qui peut contenir une ou deux valeurs. La première valeur est obligatoire (0-4). La deuxième valeur est facultative (5-9).

Les valeurs de la variable m_statusCategory sont les suivantes :

Valeur	Signification
0	Healthy
1	Warning
2	Unhealthy
255	Other

Les valeurs de la variable m_status sont les suivantes :

Valeur	Signification
0	Haut
1	Descendre
2	En maintenance
3	Jonction
4	Normal
5	Isolé
6	En quarantaine
7	Drainage
8	Drainage terminé
9	Échec du drainage
0xffff	Inconnu

Valeur de colonne RenderedDescription pour l’événement de lecteur 3001

Événement Drive 3001

{
    "m_drives":[
        {
            "m_uniqueId":"String",
            "m_model":"String",
            "m_type":"Integer",
            "m_canPool":"Boolean",
            "m_sizeInBytes":"Integer",
            "m_sizeUsedInBytes":"Integer",
            "m_alerts":{
                "m_totalUnknown":"Integer",
                "m_totalHealthy":"Integer",
                "m_totalWarning":"Integer",
                "m_totalCritical":"Integer"
            }
        },
        "…"
    ],
    "m_correlationId":"String",
    "m_isLastElement":"Boolean"
}

Valeur de colonne RenderedDescription pour l’événement de volume 3002

Événement Volume 3002

{
   "VolumeList":[
      {
         "m_Id":"String",
         "m_Label":"String",
         "m_Path":"String",
         "m_StatusCategory":"Integer",
         "m_Status":[
            "Integer",
            "…"
         ],
         "m_Size":"Integer (Bytes)",
         "m_SizeUsed":"Integer (Bytes)",
         "m_TotalIops":"Double (Count/second)",
         "m_TotalThroughput":"Double (Bytes/Second)",
         "m_AverageLatency":"Double (Seconds)",
         "m_Resiliency":"Integer",
         "m_IsDedupEnabled":"Boolean",
         "m_FileSystem":"String"
      },
      "…"
   ],
   "m_Alerts":{
      "m_totalUnknown":"Integer",
      "m_totalHealthy":"Integer",
      "m_totalWarning":"Integer",
      "m_totalCritical":"Integer"
   }
}

La plupart des variables sont explicites à partir des informations JSON ci-dessus. Toutefois, le tableau ci-dessous répertorie quelques variables qui sont un peu plus difficiles à comprendre.

Variable	Description
VolumeList	Tableau de volumes.
m_StatusCategory	État d’intégrité du volume.
m_Status	État du volume. Il s’agit d’un tableau qui peut contenir une ou deux valeurs. La première valeur est obligatoire (0-4). La deuxième valeur est facultative (5-9).

Les valeurs de la variable m_statusCategory sont les suivantes :

Valeur	Signification
0	Healthy
1	Warning
2	Unhealthy
255	Other

Les valeurs de la variable m_status sont les suivantes :

Valeur	Signification
0	Inconnu
1	Other
2	OK
3	Nécessite une réparation
4	Sous pression
5	Défaillance prédictive
6	Error
7	Erreur non récupérable
8	Démarrage en cours
9	Arrêt en cours
10	Arrêté
11	En service
12	Aucun contact
13	Perte de communication
14	Abandonné
15	Dormant
16	Entité de prise en charge liée à l’erreur
17	Effectué
18	Mode d'alimentation
19	Déplacement
0xD002	Descendre
0xD003	Nécessite une resynchronisation

Valeur de colonne RenderedDescription pour l’événement de machine virtuelle 3003

Événement Machine virtuelle 3003

{
   "m_totalVmsUnknown":"Integer",
   "m_totalVmsRunning":"Integer",
   "m_totalVmsStopped":"Integer",
   "m_totalVmsFailed":"Integer",
   "m_totalVmsPaused":"Integer",
   "m_totalVmsSuspended":"Integer",
   "m_totalVmsStarting":"Integer",
   "m_totalVmsSnapshotting":"Integer",
   "m_totalVmsSaving":"Integer",
   "m_totalVmsStopping":"Integer",
   "m_totalVmsPausing":"Integer",
   "m_totalVmsResuming":"Integer",
   "m_alerts":{
      "m_totalUnknown":"Integer",
      "m_totalHealthy":"Integer",
      "m_totalWarning":"Integer",
      "m_totalCritical":"Integer"
   }
}

Valeur de colonne RenderedDescription pour l’événement de cluster 3004

Événement Cluster 3004

{
   "m_cpuUsage":"Double (%)",
   "m_totalVolumeIops":"Double",
   "m_averageVolumeLatency":"Double (Seconds)",
   "m_totalVolumeThroughput":"Double (Bytes/Second)",
   "m_totalVolumeSizeInBytes":"Integer",
   "m_usedVolumeSizeInBytes":"Integer",
   "m_totalMemoryInBytes":"Integer",
   "m_usedMemoryInBytes":"Integer",
   "m_isStretch":"Boolean",
   "m_QuorumType":"String",
   "m_QuorumMode":"String",
   "m_QuorumState":"String",
   "m_alerts":{
      "m_totalUnknown":"Integer",
      "m_totalHealthy":"Integer",
      "m_totalWarning":"Integer",
      "m_totalCritical":"Integer"
   }

Pour plus d’informations sur les données collectées, consultez Défauts des services de contrôle d’intégrité.

Étapes suivantes

Pour plus d’informations, consultez :

Surveiller un seul cluster Azure Stack HCI avec Insights

Partager via