Workflow de développement piloté par l’évaluation
Cette section vous guide tout au long du flux de travail de développement recommandé Databricks pour la création, le test et le déploiement d’une application RAG de haute qualité : développement piloté par l’évaluation. Ce flux de travail est basé sur les meilleures pratiques recommandées par l’équipe de Mosaic Research pour la création et l’évaluation d’applications RAG de haute qualité. Databricks recommande le flux de travail piloté par l’évaluation suivant :
- Définissez les spécifications.
- Recueillez des commentaires des parties prenantes sur une preuve de concept (POC) rapide.
- Évaluez la qualité de la preuve de concept.
- Diagnostiquez et corrigez de façon itérative les problèmes de qualité.
- Déployer en production
- Surveillez en production.
Il existe deux concepts fondamentaux dans le développement piloté par l’évaluation :
Métriques : définition de la haute qualité.
À l’instar de la façon dont vous définissez les objectifs de l’entreprise chaque année, vous devez définir ce que la haute qualité signifie pour votre cas d’usage. L’Évaluation de l’agent Mosaic AI Agent fournit un ensemble suggéré de métriques à utiliser, dont la plus importante est l’exactitude ou la précision de la réponse. Est-ce que l’application RAG fournit la bonne réponse ?
Ensemble d’évaluation : mesure objectivement des métriques.
Pour mesurer objectivement la qualité, vous avez besoin d’un jeu d’évaluation contenant des questions avec des réponses connues validées par les humains. Ce guide vous oriente tout au long du processus de développement et d’affinement itératif de cet ensemble d’évaluation.
L’ancrage sur les métriques et un jeu d’évaluation offrent les avantages suivants :
- Vous pouvez affiner de façon itérative et confiante la qualité de votre application au cours du développement, sans plus deviner si une modification a entraîné une amélioration.
- L’alignement avec les parties prenantes de l’entreprise sur la préparation de l’application pour la production devient plus simple lorsque vous pouvez déclarer en toute confiance, « nous savons que notre application répond aux questions les plus critiques sur notre entreprise correctement (sans halluciner) ».
Pour une procédure pas à pas illustrant le workflow piloté par l’évaluation, commencez par Prérequis : collecter les exigences.