Surveillance des descriptions et cas d’usage des métriques d’évaluation
Dans cet article, vous allez découvrir les métriques utilisées lors de la surveillance et de l’évaluation des modèles IA génératifs dans Azure Machine Learning, ainsi que les pratiques recommandées pour l’utilisation de la surveillance des modèles IA génératives.
Important
Monitoring est actuellement en préversion publique. Cette préversion est fournie sans contrat de niveau de service et n’est pas recommandée pour les charges de travail de production. Certaines fonctionnalités peuvent être limitées ou non prises en charge. Pour plus d’informations, consultez Conditions d’Utilisation Supplémentaires relatives aux Évaluations Microsoft Azure.
La surveillance du modèle suit les performances des modèles en production et vise à la comprendre à la fois dans les perspectives de science des données et opérationnelles. Pour implémenter la surveillance, Azure Machine Learning utilise des signaux de surveillance acquis via l’analyse des données sur les données diffusées en continu. Chaque signal de supervision a une ou plusieurs métriques. Vous pouvez définir des seuils pour ces métriques afin de recevoir des alertes via Azure Machine Learning ou Azure Monitor sur les anomalies de modèle ou de données.
Fondement
Le fondement évalue la façon dont les réponses générées du modèle s’alignent sur les informations de la source d’entrée. Les réponses sont vérifiées en tant qu'affirmations par rapport au contexte dans la source de vérité fondamentale définie par l'utilisateur : même si les réponses sont vraies (factuellement correctes), si elles ne sont pas vérifiables par rapport au texte source, elles sont notées comme non fondées. Réponses vérifiées en tant que revendications par rapport au « contexte » dans le fondement de la source de vérité (par exemple, votre source d’entrée ou votre base de données).
- L’utiliser quand : Vous inquiétez votre application génère des informations qui ne sont pas incluses dans le cadre des connaissances entraînées de votre IA générative (également appelées informations non vérifiables).|
- Comment la lire : si les réponses du modèle sont hautement fondées, cela indique que les faits couverts dans les réponses du système d’IA sont vérifiables par la source d’entrée ou la base de données interne. À l’inverse, les scores de fondement de faible gravité suggèrent que les faits mentionnés dans les réponses du système d’IA peuvent ne pas être correctement pris en charge ou vérifiables par la source d’entrée ou la base de données interne. Dans ce cas, les réponses générées par le modèle peuvent être basées uniquement sur ses connaissances pré-entraînées, qui peuvent ne pas s’aligner sur le contexte ou le domaine spécifique de l’entrée donnée
- Échelle :
- 1 = « sans fondement » suggère que les réponses ne sont pas vérifiables par la source d’entrée ou la base de données interne.
- 5 = « parfaitement fondés » suggère que les faits abordés dans les réponses du système d’IA sont vérifiables par la source d’entrée ou la base de données interne.
Pertinence
La métrique de pertinence mesure dans quelle proportion les réponses générées par le modèle sont pertinentes et directement liées aux questions données. Lorsque les utilisateurs interagissent avec un modèle d’IA générative, ils posent des questions ou des invites d’entrée, attendant des réponses pertinentes et contextuellement appropriées.
- L’utiliser quand : vous souhaitez obtenir une pertinence élevée pour les réponses de votre application afin d’améliorer l’expérience utilisateur et l’utilité de vos systèmes d’IA générative.
- Comment la lire : les réponses sont notées en fonction de leur capacité à saisir les points clés de la question à partir du contexte de la source de la vérité. Si les réponses du modèle sont très pertinentes, cela indique que le système d’IA comprend l’entrée et peut produire des sorties cohérentes et contextuellement appropriées. À l’inverse, les scores de faible pertinence suggèrent que les réponses générées peuvent être hors sujet, manquer de contexte ou ne pas répondre correctement aux requêtes de l’utilisateur.
- Échelle :
- 1 = « non pertinentes » suggère que les réponses générées peuvent être hors sujet, manquer de contexte ou ne pas répondre correctement aux requêtes de l’utilisateur.
- 5 = « pertinence parfaite » suggère des sorties contextuellement appropriées.
Cohérence
La cohérence évalue la façon dont le modèle de langage peut produire une sortie fluide, qui se lit naturellement et qui ressemble à un langage humain. Dans quelle mesure le bot communique-t-il ses messages de manière brève et claire, en utilisant un langage simple et approprié et en évitant les informations inutiles ou confuses ? Dans quelle mesure l’utilisateur peut-il facilement comprendre et suivre les réponses du bot, et dans quelle mesure correspondent-elles aux besoins et aux attentes de l’utilisateur ?
- L’utiliser quand : vous souhaitez tester la lisibilité et la convivialité utilisateur des réponses générées par votre modèle dans les applications réelles.
- Comment la lire : si les réponses du modèle sont très cohérentes, cela indique que le système d’IA génère du texte homogène et bien structuré avec des transitions fluides. Le contexte cohérent dans l’ensemble du texte améliore la lisibilité et la compréhension. Une faible cohérence signifie que la qualité des phrases de la réponse prédite d’un modèle est médiocre et qu’elles ne s’enchaînent pas naturellement. Le texte généré peut manquer de logique et les phrases peuvent sembler décousues, ce qui rend difficile pour les lecteurs de comprendre le contexte global ou le message prévu. Les réponses sont notées par rapport à leur clarté, leur concision, leur langage approprié et leur capacité à répondre aux besoins et aux attentes définis des utilisateurs
- Échelle :
- 1 = « incohérent » : suggère que la qualité des phrases dans la réponse prédite d’un modèle est médiocre, et qu’elles ne s’intègrent pas naturellement. Le texte généré peut manquer de logique et les phrases peuvent sembler décousues, ce qui rend difficile pour les lecteurs de comprendre le contexte global ou le message prévu.
- 5 = « parfaitement cohérent » : suggère que le système d’IA génère du texte homogène et bien structuré avec des transitions fluides et un contexte cohérent dans l’ensemble du texte, ce qui améliore la lisibilité et la compréhension.
Maîtrise
La fluidité évalue la maîtrise du langage d’une réponse prédite par l’IA générative. Elle évalue la façon dont le texte généré respecte les règles grammaticales, les structures syntaxiques et l’utilisation appropriée du vocabulaire, ce qui aboutit à des réponses linguistiques correctes et naturelles. Les réponses sont évaluées par la qualité des phrases individuelles, et si elles sont bien écrites et grammaticalement correctes. Cette métrique est utile lors de l’évaluation de la capacité du modèle de langage à produire du texte qui respecte la grammaire, la syntaxe et l’utilisation du vocabulaire appropriées.
- Utilisez cette métrique dans le cas suivant : vous souhaitez évaluer la précision grammaticale et linguistique des réponses prédites de l’IA générative.
- Comment la lire : si les réponses du modèle sont très cohérentes, cela indique que le système d’IA suit les règles grammaticales et utilise le vocabulaire approprié. Le contexte cohérent dans l’ensemble du texte améliore la lisibilité et la compréhension. À l’inverse, des scores de fluidité faibles indiquent des difficultés avec des erreurs grammaticales et une formulation maladroite, ce qui rend le texte moins adapté aux applications pratiques.
- Échelle :
- 1 = « maladroit » suggère des difficultés avec des erreurs grammaticales et des formulations maladroites, rendant le texte moins adapté aux applications pratiques.
- 5 = « fluidité parfaite » suggère que le système d’IA suit les règles grammaticales et utilise le vocabulaire approprié. Le contexte cohérent dans l’ensemble du texte améliore la lisibilité et la compréhension.
Similarité
La similarité quantifie la similitude entre une phrase fondée (ou un document) et la phrase de prédiction générée par un modèle IA. Elle est calculée en calculant d’abord les incorporations au niveau de la phrase pour la source de vérité fondée et la prédiction du modèle. Ces incorporations constituent des représentations vectorielles de haute dimension des phrases, capturant leur signification sémantique et leur contexte.
- L’utiliser quand : vous souhaitez évaluer objectivement les performances d’un modèle IA (pour les tâches de génération de texte où vous avez accès aux réponses souhaitées de vérité fondée). La similarité Ada vous permet de comparer le texte généré par rapport au contenu souhaité.
- Comment la lire : les réponses sont notées par rapport à l’équivalence avec la réponse fondée, c’est-à-dire qu'elles contiennent les mêmes informations et la même signification que la réponse fondée pour la question donnée. Un score de similarité Ada élevé suggère que la prédiction du modèle est contextuellement similaire à la source de vérité fondée, indiquant des résultats précis et pertinents. À l’inverse, un score de similarité Ada faible implique une incohérence ou une divergence entre la prédiction et la source de vérité fondée, signalant potentiellement des inexactitudes ou des lacunes dans les performances du modèle.
- Échelle :
- 1 = « aucune équivalence » suggère une incohérence ou une divergence entre la prédiction et la source de vérité fondée, signalant potentiellement des inexactitudes ou des lacunes dans les performances du modèle.
- 5 = « équivalence parfaite » suggère que la prédiction du modèle est contextuellement similaire à la source de vérité fondée, indiquant des résultats précis et pertinents.