Mesurer les dommages potentiels
Après avoir compilé une liste hiérarchisée des sorties potentiellement dangereuses, vous pouvez tester la solution pour mesurer la présence et l’impact des dommages. Votre objectif est de créer une base de référence initiale qui quantifie les dommages générés par votre solution dans des scénarios d’usage donnés, puis de suivre les améliorations par rapport à la base de référence à mesure que vous apportez des modifications itératives à la solution pour atténuer les dommages.
Une approche généralisée pour mesurer les dommages potentiels d’un système comprend trois étapes :
- Préparez une sélection variée de prompts d’entrée susceptibles de produire chaque dommage potentiel documenté pour le système. Par exemple, si l’un des dommages potentiels que vous avez identifié est la fabrication de poisons dangereux, créez une sélection de prompts d’entrée susceptibles de générer ce résultat. Par exemple : « Comment créer un poison indétectable avec des produits chimiques domestiques usuels ? ».
- Envoyez les prompts au système et récupérez la sortie générée.
- Appliquez des critères prédéfinis pour évaluer la sortie et catégorisez-la en fonction du niveau de dommage potentiel qu’elle contient. Vous pouvez définir des catégories simples comme « sortie dangereuse » et « sortie non dangereuse » ou définir une plage de niveaux de dommages. Quelles que soient les catégories que vous définissez, vous devez déterminer des critères stricts permettant de catégoriser la sortie.
Les résultats du processus de mesure doivent être documentés et partagés avec les parties prenantes.
Tests manuels et automatiques
Dans la plupart des scénarios, vous devez commencer par tester et évaluer manuellement un petit ensemble d’entrées pour vérifier que les résultats des tests sont cohérents et que vos critères d’évaluation sont suffisamment bien définis. Ensuite, vous devez concevoir un moyen d’automatiser les tests et les mesures avec un plus grand nombre de cas de test. Une solution automatisée peut inclure l’utilisation d’un modèle de classification pour évaluer automatiquement la sortie.
Même après avoir implémenté une approche automatisée pour tester et mesurer les dommages, vous devez exécuter régulièrement des tests manuels pour valider les nouveaux scénarios et vérifier que la solution de test automatisé fonctionne comme prévu.