Partager via


Comment afficher les résultats d’une évaluation dans le portail Azure AI Foundry

La page d’évaluation du portail Azure AI Foundry est un hub polyvalent qui vous permet non seulement de visualiser et d’évaluer vos résultats, mais qui sert également de centre de contrôle pour l’optimisation, la résolution des problèmes et la sélection du modèle d’IA idéal pour vos besoins de déploiement. Elle constitue une solution unique pour la prise de décision fondée sur les données et l’amélioration des performances de vos projets Azure AI Foundry. Vous pouvez aisément accéder aux résultats, puis les interpréter depuis diverses sources, notamment votre flux, la session de test rapide du terrain de jeu, l’interface utilisateur des demandes d’évaluation et le kit de développement logiciel (SDK). Cette flexibilité vous permet d’interagir avec vos résultats de la manière qui convient le mieux à votre flux de travail et à vos préférences.

Une fois que vous avez visualisé les résultats de votre évaluation, vous pouvez vous plonger dans un examen approfondi. Cela inclut la possibilité de visualiser non seulement les résultats individuels, mais aussi de les comparer entre plusieurs exécutions d’évaluation. Cela inclut la possibilité non seulement de visualiser les résultats individuels, mais aussi de les comparer entre plusieurs évaluations. Vous pouvez ainsi identifier les tendances, les modèles et les disparités, et obtenir des informations précieuses sur les performances de votre système d’IA dans diverses conditions.

Dans cet article, vous apprenez à :

  • Afficher les résultats et les métriques de l’évaluation.
  • Comparer les résultats de l’évaluation.
  • Comprendre les métriques d’évaluation intégrées.
  • Améliorer les performances.
  • Afficher les résultats et les métriques de l’évaluation.

Rechercher les résultats de votre évaluation

Une fois la demande d’évaluation soumise, vous pouvez localiser l’exécution d’évaluation soumise dans la liste des exécutions en accédant à l’onglet Évaluation.

Vous pouvez superviser et gérer vos exécutions d’évaluation dans la liste des exécutions. Vous pouvez modifier les colonnes à l’aide de l’éditeur de colonnes et appliquer des filtres, ce qui vous permet de personnaliser et de créer votre propre version de la liste des exécutions. Vous pouvez également passer rapidement en revue les métriques d’évaluation agrégées pour l’ensemble des exécutions, ce qui vous permet d’effectuer des comparaisons rapides.

Capture d’écran de la liste d’exécutions d’évaluation.

Conseil

Pour afficher les évaluations exécutées avec n'importe quelle version du Kit de développement logiciel (SDK) promptflow-evals ou avec les versions 1.0.0b1, 1.0.0b2, 1.0.0b3 de azure-ai-evaluation, cochez la case« Afficher toutes les évaluations » pour localiser l'évaluation.

Pour mieux comprendre comment les métriques d’évaluation sont calculées, vous pouvez obtenir une explication détaillée en sélectionnant l’option « En savoir plus sur les métriques ». Cette ressource détaillée fournit des informations précieuses sur le calcul et l’interprétation des métriques utilisées dans le processus d’évaluation.

Capture d’écran des détails des métriques d’évaluation.

Vous pouvez dès lors choisir une exécution spécifique, ce qui vous dirigera vers la page des détails de l’exécution. Ici, vous pouvez accéder à des informations complètes, notamment des détails d’évaluation tels que le jeu de données test, le type de tâche, l’invite, la température, etc. Vous pouvez également consulter les métriques associées à chaque échantillon de données. Les graphiques des scores de métriques fournissent une représentation visuelle de la manière dont les scores sont distribués pour chaque métrique dans votre jeu de données.

Graphiques de tableau de bord de métriques

Nous décomposons les vues globales avec différents types de mesures par Qualité de l'IA (assistée par l'IA), Risque et sécurité, Qualité de l'IA (NLP), et Personnalisée le cas échéant. Vous pouvez afficher la distribution des scores dans le jeu de données évalué, puis afficher les scores d’agrégation pour chaque métrique.

  • Pour la Qualité de l’IA (assistée par l’IA), nous agrégeons en calculant une moyenne sur tous les scores pour chaque métrique. Si vous calculez Fondement Pro, la sortie est binaire et le score agrégé passe donc le taux, qui est calculé par (#trues/#instances) × 100. Capture d’écran de l’onglet tableau de bord des métriques de Qualité de l’IA (assistée par l’IA).
  • Pour les métriques de risque et de sécurité, nous agrégeons en calculant un taux de défauts pour chaque métrique.
    • Pour les métriques de contenu dangereux, le taux de défauts est défini comme le pourcentage d’instances de votre jeu de données de test qui dépassent un seuil sur l’échelle de gravité sur toute la taille du jeu de données. Par défaut, le seuil est défini sur « Moyen ».
    • Pour le matériel protégé et les attaques indirectes, le taux de défauts est calculé comme pourcentage d’instances où la sortie est « true » (Taux de défaut = (# true / # instances) × 100). Capture d’écran de l’onglet du tableau de bord des métriques de risque et de sécurité.
  • Pour les métriques de Qualité de l’IA (NLP), nous affichons l’histogramme de la distribution des métriques comprise entre 0 et 1. Nous agrégeons en calculant une moyenne sur tous les scores pour chaque métrique. Capture d’écran de l’onglet tableau de bord de Qualité de l’IA (NLP).
  • Pour les métriques personnalisées, vous pouvez sélectionner Ajouter un graphique personnalisé pour créer un graphique personnalisé avec vos métriques choisies ou afficher une métrique par rapport aux paramètres d’entrée sélectionnés. Capture d’écran de la fenêtre contextuelle de création d’un graphique personnalisé.

Vous pouvez également personnaliser des graphiques existants pour les métriques intégrées en modifiant le type de graphique.

Capture d’écran de la modification du type de graphique.

Tableau de résultats des métriques détaillées

Dans le tableau des détails des métriques, vous pouvez procéder à un examen complet et individuel de chaque échantillon de données. Ici, vous pouvez examiner le résultat généré et le score de la métrique d’évaluation correspondante. Ce niveau de détail vous permet de prendre des décisions fondées sur des données et d’entreprendre des actions spécifiques pour améliorer les performances de votre modèle.

Certains éléments d’action potentiels basés sur les métriques d’évaluation peuvent inclure :

  • Reconnaissance de modèle : En filtrant les valeurs numériques et les métriques, vous pouvez explorer les échantillons avec des scores inférieurs. Examinez ces échantillons pour identifier les tendances ou les problèmes récurrents dans les réponses de votre modèle. Par exemple, vous pouvez remarquer que les scores sont souvent faibles lorsque le modèle génère du contenu sur un certain sujet.
  • Perfectionnement du modèle : Utilisez les informations fournies par les échantillons ayant obtenu de moins bons résultats pour améliorer l’instruction rapide du système ou pour affiner votre modèle. Si vous observez des problèmes constants, par exemple en matière de cohérence ou de pertinence, vous pouvez également ajuster les données d’apprentissage ou les paramètres du modèle en conséquence.
  • Personnalisation des colonnes : L’éditeur de colonnes vous permet de créer une vue personnalisée du tableau, en vous concentrant sur les métriques et les données les plus pertinentes pour vos objectifs d’évaluation. Cela peut simplifier votre analyse et vous aider à repérer les tendances plus efficacement.
  • Recherche de mots clés : la zone de recherche vous permet de rechercher des mots ou expressions spécifiques dans les résultats générés. Cela peut s’avérer utile pour identifier les problèmes ou les modèles liés à des sujets ou à des mots clés particuliers et pour les traiter de manière spécifique.

Le tableau détaillé des métriques offre une multitude de données qui peuvent guider vos efforts d’amélioration du modèle, qu’il s’agisse d’identifier des modèles, de personnaliser votre vue pour une analyse efficace ou d’affiner votre modèle sur la base des problèmes identifiés.

Voici quelques exemples de résultats de métriques pour le scénario de réponse aux questions :

Capture d’écran des résultats des métriques pour le scénario de réponse aux questions.

Et voici quelques exemples de résultats de métriques pour le scénario de conversation :

Capture d’écran des résultats des métriques pour le scénario de conversation.

Pour le scénario de conversation à plusieurs tour, vous pouvez sélectionner « Afficher les résultats d’évaluation par tour » pour vérifier les métriques d’évaluation pour chaque tour dans une conversation.

Capture d’écran montrant afficher les résultats de l’évaluation par tour de lien dans le message d’entrée.

Capture d’écran des résultats de l’évaluation par tour.

Pour une évaluation de la sécurité dans un scénario multimodal (texte + images), vous pouvez passer en revue les images de l’entrée et de la sortie dans le tableau de résultats des métriques détaillées pour mieux comprendre le résultat de l’évaluation. Comme l’évaluation multimodale est actuellement prise en charge seulement pour les scénarios de conversation, vous pouvez sélectionner « Afficher les résultats d’évaluation par tour » pour examiner l’entrée et la sortie de chaque tour.

Capture d’écran des résultats des métriques détaillées.

Capture d’écran de la fenêtre contextuelle pour la colonne de conversation.

Sélectionnez l’image à développer et visualisez-la. Par défaut, toutes les images sont floutées pour vous protéger contre les contenus potentiellement dangereux. Pour visualiser l’image en clair, activez le bouton bascule « Vérifier l’image floutée ».

Capture d’écran d’une image floutée montrant le bouton bascule Vérifier l’image floutée.

Pour les métriques de risque et de sécurité, l’évaluation fournit un score de gravité et un raisonnement pour chaque score. Voici quelques exemples de résultats de métriques de risque et de sécurité pour le scénario de réponse aux questions :

Capture d’écran des résultats des métriques de risque et de sécurité pour le scénario de réponse aux questions.

Les résultats de l’évaluation peuvent avoir des significations différentes en fonction du public. Par exemple, les évaluations de sécurité peuvent générer une étiquette ayant le niveau de gravité « faible » pour un contenu violent, qui ne correspond pas forcément à la définition qu’un réviseur humain donne de la gravité de ce contenu violent spécifique. Nous fournissons une colonne de commentaires humains avec des pouces vers le haut et des pouces vers le bas lors de l’examen de vos résultats d’évaluation pour faire apparaître les instances approuvées ou signalées comme incorrectes par un réviseur humain.

Capture d’écran des résultats des métriques de risque et de sécurité avec des commentaires humains.

Lorsque vous comprenez chaque métrique de risque de contenu, vous pouvez facilement afficher chaque définition de métrique et l’échelle de gravité en sélectionnant le nom de la métrique au-dessus du graphique pour afficher une explication détaillée dans une fenêtre contextuelle.

Capture d’écran de la fenêtre contextuelle d’explications détaillées sur les métriques de risque et de sécurité.

Si l’exécution ne se déroule pas correctement, vous pouvez également déboguer l’exécution de l’évaluation à l’aide du journal et de la trace.

Voici quelques exemples de journaux que vous pouvez utiliser pour déboguer l’exécution de votre évaluation :

Capture d’écran de journaux permettant de déboguer l’exécution de votre évaluation.

Si vous évaluez un flux d’invite, vous pouvez sélectionner le bouton Voir dans le flux pour accéder à la page de flux évaluée pour effectuer la mise à jour de votre flux. Par exemple, l’ajout d’instructions d’invite de métadonnées supplémentaires ou la modification de certains paramètres et la réévaluation.

Gérer et partager la vue avec les options d’affichage

Dans la page Détails de l’évaluation, vous pouvez personnaliser votre affichage en ajoutant des graphiques personnalisés ou en modifiant des colonnes. Une fois personnalisé, vous avez la possibilité d’enregistrer l’affichage et/ou de le partager avec d’autres utilisateurs à l’aide des options d’affichage. Cela vous permet de passer en revue les résultats d’évaluation dans un format adapté à vos préférences et facilite la collaboration avec vos collègues.

Capture d’écran de la liste déroulante des options d’affichage.

Comparer les résultats de l’évaluation

Pour faciliter une comparaison complète entre deux exécutions ou plus, vous avez la possibilité de sélectionner les exécutions souhaitées et de lancer le processus en sélectionnant le bouton Comparer ou, pour une vue générale détaillée du tableau de bord, sur le bouton Basculer vers l’affichage Tableau de bord. Cette fonctionnalité vous permet d’analyser et de comparer les performances et les résultats de plusieurs exécutions, ce qui permet de prendre des décisions plus éclairées et d’apporter des améliorations ciblées.

Capture d’écran de l’option permettant de comparer les évaluations.

Dans l’affichage du tableau de bord, vous avez accès à deux composants précieux : le graphique de comparaison de la distribution des métriques et le tableau de comparaison. Ces outils vous permettent d’effectuer une analyse côte à côte des exécutions d’évaluation sélectionnées. Vous pouvez ainsi comparer les différents aspects de chaque échantillon de données avec facilité et précision.

Capture d’écran de la page d’évaluations de métriques avec l’option permettant de sélectionner des évaluations manuelles.

Dans le tableau de comparaison, vous avez la possibilité d’établir une ligne de base pour votre comparaison en pointant avec votre souris sur l’exécution spécifique que vous souhaitez utiliser comme point de référence et définir comme ligne de base. De plus, en activant le bouton bascule « Afficher le delta », vous pouvez facilement visualiser les différences entre l’exécution de la ligne de base et les autres exécutions pour les valeurs numériques. En outre, en activant le bouton bascule « Afficher uniquement la différence », le tableau affiche uniquement les lignes qui diffèrent entre les exécutions sélectionnées, ce qui facilite l’identification des variantes distinctes.

En utilisant ces fonctions de comparaison, vous pouvez prendre une décision éclairée pour sélectionner la meilleure version :

  • Comparaison avec la ligne de base : En définissant une exécution de ligne de base, vous pouvez identifier un point de référence avec lequel vous pourrez comparer les autres exécutions. Cela vous permet de voir comment chaque exécution s’écarte de votre norme choisie.
  • Évaluation de la valeur numérique : L’activation de l’option « Afficher le delta » vous permet de comprendre l’étendue des différences entre la ligne de base et les autres exécutions. Cela est utile pour évaluer la façon dont différentes exécutions s’exécutent en termes de métriques d’évaluation spécifiques.
  • Isolation des différences : La fonctionnalité « Afficher uniquement la différence » simplifie votre analyse en mettant en évidence uniquement les zones où il existe des différences entre les exécutions. Cela peut contribuer à identifier les paramètres qui nécessitent des améliorations ou des ajustements.

Une utilisation efficace de ces outils de comparaison vous permettra d’identifier la version de votre modèle ou de votre système la plus performante par rapport aux critères et aux métriques que vous avez définis, ce qui vous aidera à choisir l’option la plus adaptée à votre application.

Capture d’écran des résultats de l’évaluation côte à côte.

Mesure de la vulnérabilité du jailbreak

L’évaluation du jailbreak est une mesure comparative, et non une métrique assistée par l’IA. Exécutez des évaluations sur deux jeux de données différents soumis à des tests de contrainte par des experts : un jeu de données de test contradictoire de référence, et le même jeu de données de test contradictoire avec des injections de jailbreak au premier tour. Vous pouvez utiliser le simulateur de données contradictoires pour générer le jeu de données avec ou sans injections de jailbreak.

Pour comprendre si votre application est vulnérable au jailbreak, vous pouvez spécifier quelle est la base de référence, puis activer les « taux » de défaut de jailbreak bascule dans la table de comparaison. Le taux de défauts de jailbreak est défini comme le pourcentage d’instances dans votre jeu de données de test où une injection de jailbreak a généré un score de gravité plus élevé pour toute mesure de risque de contenu par rapport à une base de référence sur toute la taille du jeu de données. Vous pouvez sélectionner plusieurs évaluations dans votre tableau de bord de comparaison pour afficher la différence dans les taux de défauts.

Capture d’écran des résultats d’évaluation côte à côte avec la fonction défaut de jailbreak activée.

Conseil

Le taux de défaut de jailbreak se calcule par comparaison uniquement pour les jeux de données de même taille et uniquement lorsque toutes les exécutions incluent des métriques de risque et de sécurité de contenu.

Comprendre les métriques d’évaluation intégrées

Il est essentiel de comprendre les paramètres intégrés pour évaluer les performances et l’efficacité de votre application IA. En vous familiarisant avec ces outils de mesure clés, vous êtes plus à même d’interpréter les résultats, de prendre des décisions éclairées et d’affiner votre application pour obtenir les meilleurs résultats. Si vous souhaitez en savoir plus sur l’importance de chaque métrique, son mode de calcul, son rôle dans l’évaluation des différents aspects de votre modèle et la manière d’interpréter les résultats pour apporter des améliorations fondées sur des données, veuillez consulter la rubrique Métriques d’évaluation et de monitoring.

Étapes suivantes

En savoir plus sur la manière d’évaluer vos applications IA générative :

En savoir plus sur les techniques d’atténuation des risques.