Définir la « qualité » : jeux d’évaluation
Cet article décrit les jeux d’évaluation et comment ils aident à garantir la qualité de votre application.
Qu’est-ce qu’un jeu d’évaluation ?
Pour mesurer la qualité, Databricks recommande de créer un jeu d’évaluation étiqueté par des humains. Un jeu d’évaluation est un ensemble de requêtes organisé et représentatif ainsi que des réponses basées sur des références et (éventuellement) les documents justificatifs corrects qui doivent être extraits. L’entrée humaine est cruciale dans ce processus, car elle garantit que le jeu d’évaluation reflète avec exactitude les attentes et les exigences des utilisateurs finaux.
Organiser les étiquettes appliquées par des humains peut être un processus fastidieux. Vous pouvez commencer par créer un jeu d’évaluation qui inclut seulement des questions, puis ajouter au fil du temps les réponses basées sur des références. Mosaic AI Agent Evaluation peut évaluer la qualité de votre chaîne sans références, bien que, si des références sont disponibles, il calcule des métriques supplémentaires comme la justesse des réponses.
Qualités d’un bon jeu d’évaluation
Un bon jeu d’évaluation présente les caractéristiques suivantes :
- Représentatif : il reflète avec exactitude la variété des demandes que l’application va rencontrer en production.
- Difficile : le jeu doit inclure des cas difficiles et diversifiés pour tester efficacement les capacités du modèle. Dans l’idéal, il inclut des exemples contradictoires, comme des questions qui tentent d’injecter des prompts ou des questions qui tentent de générer des réponses inappropriées à partir du LLM.
- Mis à jour en continu : le jeu doit être régulièrement mis à jour pour refléter la façon dont l’application est utilisée en production, la nature changeante des données indexées et les éventuelles modifications apportées aux exigences de l’application.
Databricks recommande au moins 30 questions dans votre jeu d’évaluation, et idéalement de 100 à 200. Les meilleurs jeux d’évaluation vont croître au fil du temps pour contenir jusqu’à 1 000 questions.
Jeux d’apprentissage, de test et de validation
Pour éviter le surajustement, Databricks recommande de fractionner votre jeu d’évaluation en jeux d’apprentissage, de test et de validation :
- Jeu d’apprentissage : environ 70 % des questions. Utilisé pour une passe initiale destinée à évaluer chaque expérience afin d’identifier celles qui ont le plus de potentiel.
- Jeu de test : environ 20 % des questions. Utilisé pour évaluer les expériences les plus performantes à partir du jeu d’apprentissage.
- Jeu de validation : environ 10 % des questions. Utilisé pour un contrôle de validation final avant de déployer une expérience en production.
Mosaic AI Agent Evaluation vous aide à créer un jeu d’évaluation en fournissant une interface de conversation web pour vos parties prenantes afin de fournir des commentaires sur les résultats de l’application. Les résultats de la chaîne et les commentaires des parties prenantes sont enregistrés dans des tables Delta, qui peuvent ensuite être organisées en un jeu d’évaluation. Consultez Organiser un jeu d’évaluation dans la section Implémenter de ce livre de recettes pour obtenir des instructions pratiques avec un exemple de code.