Permettre les mesures : prise en charge de l’infrastructure
Cet article détaille l’infrastructure nécessaire pour mesurer la qualité et la façon dont Databricks les fournit. Mesurer la qualité n’est pas facile et nécessite des investissements significatifs dans l’infrastructure.
Journalisation du suivi détaillée
Le cœur de la logique de votre application RAG est une série d’étapes de la chaîne. Pour évaluer et déboguer la qualité, vous devez implémenter l’instrumentation qui suit les entrées et sorties de la chaîne, chaque étape de la chaîne, ainsi que ses entrées et sorties associées. L’instrumentation que vous avez mise en place devrait fonctionner de la même façon pendant le développement et pendant la production.
Dans Databricks, MLflow Tracing (Suivi MLflow) permet cela. Avec la journalisation de suivi MLflow, vous instrumentez votre code en production et obtenez les mêmes suivis pendant le développement que pendant la production. Les suivis de production sont journalisés dans le cadre de la table d’inférence.
Interface utilisateur de révision des parties prenantes
Le plus souvent, en tant que développeur, vous n’êtes pas expert dans le domaine du contenu de l’application que vous développez. Pour recueillir des commentaires d’experts humains qui peuvent évaluer la qualité de sortie de votre application, vous avez besoin d’une interface qui leur permet d’interagir avec les premières versions de l’application et de fournir des commentaires détaillés. En outre, il vous faut un moyen de charger des sorties d’application spécifiques pour que les parties prenantes évaluent leur qualité.
Cette interface doit suivre les sorties de l’application et les commentaires associés de manière structurée et stocker le suivi complet de l’application et les commentaires détaillés dans une table de données.
Dans Databricks, l’application de révision Agent Evaluation fournit cette fonctionnalité.
Infrastructure de mesures relatives à la qualité, au coût et à la latence
Il vous faut un moyen de définir les métriques qui mesurent de manière complète la qualité de chaque composant de votre chaîne et de l’application de bout en bout. Dans l’idéal, l’infrastructure fournit une suite de métriques standard prêtes à l’emploi, en plus de prendre en charge la personnalisation, afin de pouvoir ajouter des métriques qui testent des aspects spécifiques de la qualité propres à votre entreprise.
Dans Databricks, Agent Evaluation (Agent d’évaluation) fournit une implémentation prête à l’emploi, à l’aide de modèles de jugement LLM hébergés, pour les mesures relatives à la qualité, au coût et à la latence nécessaires.
Harnais d’évaluation
Il vous faut un moyen rapide et efficace d’obtenir des sorties de votre chaîne pour chaque question de votre jeu d’évaluation, puis d’évaluer chaque sortie sur les métriques pertinentes. Ce harnais doit être aussi efficace que possible, car vous allez exécuter l’évaluation après chaque expérience dont vous essayez d’améliorer la qualité.
Dans Databricks, Agent Evaluation fournit un harnais d’évaluation intégré à MLflow.
Gestion des ensembles d’évaluation
Votre jeu d’évaluation est un ensemble de questions réelles que vous allez mettre à jour de manière itérative au cours du développement et du cycle de vie de production de votre application.
Dans Databricks, vous pouvez gérer votre jeu d’évaluation en tant que table Delta. Lors de l’évaluation avec MLflow, ce dernier enregistre automatiquement un instantané de la version du jeu d’évaluation utilisé.
Infrastructure de suivi des expérimentations
Au cours du développement de votre application, vous allez essayer de nombreuses expérimentations. Une infrastructure de suivi des expérimentations vous permet de consigner chacune d’entre elles et de suivre ses métriques par rapport à d’autres expérimentations.
Dans Databricks, MLflow fournit des fonctionnalités de suivi des expérimentations.
Framework de paramétrage de chaîne
De nombreuses expérimentations que vous essayez de tester vous obligent à conserver la constante de code de la chaîne tout en itérant sur différents paramètres utilisés par le code. Il vous faut une infrastructure qui vous permet de le faire.
Dans Databricks, Configuration de modèle MLflow fournit ces fonctionnalités.
Supervision en ligne
Une fois déployée, vous avez besoin d’un moyen de surveiller l’intégrité et la qualité actuelle de l’application, ainsi que le coût et la latence.
Dans Databricks, Model Serving (Mise en service de modèles) fournit une surveillance de l’intégrité de l’application et Lakehouse Monitoring (Surveillance Lakehouse) fournit des sorties en cours dans un tableau de bord et surveille la qualité, le coût et la latence.