Anzeigen von Auswertungsergebnissen im Azure KI Foundry-Portal
Die Auswertungsseite des Azure KI Foundry-Portals ist ein vielseitiger Hub, mit dem Sie Ihre Ergebnisse nicht nur visualisieren und bewerten können, sondern sie dient auch als Kontrollzentrum für die Optimierung, Problembehandlung und Auswahl des idealen KI-Modells für Ihre Bereitstellungsanforderungen. Sie ist eine zentrale Lösung für datengesteuerte Entscheidungsfindung und Leistungsverbesserung in Ihren Azure KI Foundry-Projekten. Sie können nahtlos auf die Ergebnisse aus verschiedenen Quellen zugreifen und diese interpretieren, einschließlich Ihres Flows, der Playground-Schnelltestsitzung, der Auswertungsübermittlungs-UI und des SDK. Diese Flexibilität stellt sicher, dass Sie mit Ihren Ergebnissen auf eine Weise interagieren können, die am besten zu Ihrem Workflow und Ihren Vorlieben passt.
Sobald Sie Ihre Bewertungsergebnisse visualisiert haben, können Sie mit einer gründlichen Untersuchung beginnen. Dazu gehört auch die Möglichkeit, nicht nur einzelne Ergebnisse anzuzeigen, sondern diese Ergebnisse auch über mehrere Auswertungsläufe hinweg zu vergleichen. Auf diese Weise können Sie Trends, Muster und Diskrepanzen identifizieren und wertvolle Einblicke in die Leistung Ihres KI-Systems unter verschiedenen Bedingungen gewinnen.
In diesem Artikel wird Folgendes behandelt:
- Zeigen Sie das Auswertungsergebnis und Metriken an.
- Vergleichen Sie die Auswertungsergebnisse.
- Machen Sie sich mit den integrierten Auswertungsmetriken vertraut.
- Verbessern Sie die Leistung.
- Zeigen Sie die Auswertungsergebnisse und Metriken an.
Suchen Ihrer Auswertungsergebnisse
Nachdem Sie Ihre Auswertung übermittelt haben, können Sie zur Seite Auswertung wechseln und in der Ausführungsliste nach der übermittelten Auswertungsausführung suchen.
Sie können ihre Auswertungsausführung in der Ausführungsliste überwachen und verwalten. Mit der Flexibilität, die Spalten mit dem Spalteneditor zu ändern und Filter zu implementieren, können Sie Ihre eigene Version der Laufliste anpassen und erstellen. Darüber hinaus können Sie die aggregierten Auswertungsmetriken schnell über die Ausführung hinweg überprüfen, sodass Sie schnelle Vergleiche ziehen können.
Tipp
Um Auswertungen anzuzeigen, die mit einer beliebigen Version des promptflow-evals-SDK oder der azure-ai-evaluation-Versionen 1.0.0b1, 1.0.0b2, 1.0.0b3 ausgeführt werden, aktivieren Sie die Umschaltfläche „Alle Läufe anzeigen“, um die Ausführung zu suchen.
Um genauer zu verstehen, wie die Auswertungsmetriken abgeleitet werden, können Sie auf eine umfassende Erklärung zugreifen, indem Sie die Option „Weitere Informationen zu Metriken“ auswählen. Diese detaillierte Ressource bietet wertvolle Einblicke in die Berechnung und Interpretation der Metriken, die im Auswertungsprozess verwendet werden.
Sie können eine bestimmte Ausführung auswählen, die Sie zur Detailseite für die Ausführung führt. Hier können Sie auf umfassende Informationen zugreifen, einschließlich Auswertungsdetails wie Testdataset, Aufgabentyp, Prompt, Temperatur und mehr. Darüber hinaus können Sie die Metriken anzeigen, die den einzelnen Datenbeispielen zugeordnet sind. Die Metrikbewertungsdiagramme stellen eine visuelle Darstellung der Verteilung der Bewertungen für jede Metrik im gesamten Dataset bereit.
Diagramme im Metrik-Dashboard
Wir schlüsseln die aggregierten Ansichten mit verschiedenen Arten Ihrer Metriken auf nach KI-Qualität (KI-unterstützt), Risiko und Sicherheit, KI-Qualität (NLP) und benutzerdefiniert, falls zutreffend. Sie können die Verteilung von Bewertungen über das ausgewertete Dataset hinweg anzeigen und aggregierte Bewertungen für jede Metrik anzeigen.
- Für KI-Qualität (KI-unterstützt) aggregieren wir, indem wir einen Mittelwert für alle Bewertungen jeder Metrik berechnen. Wenn Sie „Groundedness Pro“ berechnen, ist die Ausgabe binär und somit ist der aggregierte Score die Erfolgsquote, die sich aus (#trues / #instances) × 100 ergibt.
- Für Risiko- und Sicherheitsmetriken aggregieren wir, indem wir für jede Metrik eine Fehlerrate berechnen.
- Die Fehlerrate für Metriken für Inhaltsschäden wird als Prozentsatz der Instanzen in Ihrem Testdatensatz definiert, die einen Schwellenwert für den Schweregrad über die gesamte Datasetgröße überschreiten. Standardmäßig ist der Schwellenwert „Mittel“.
- Bei geschützten Materialien und indirekten Angriffen wird die Fehlerrate als Prozentsatz der Instanzen berechnet, in denen die Ausgabe „true“ ist (Fehlerrate = (#trues / #instances) × 100).
- Für KI-Qualitätsmetriken (NLP) zeigen wir ein Histogramm der Metrikverteilung zwischen 0 und 1 an. Wir aggregieren, indem wir einen Mittelwert für alle Scores jeder Metrik berechnen.
- Für benutzerdefinierte Metriken können Sie Benutzerdefiniertes Diagramm hinzufügen auswählen, um ein benutzerdefiniertes Diagramm mit den ausgewählten Metriken zu erstellen oder eine Metrik für ausgewählte Eingabeparameter anzuzeigen.
Sie können auch vorhandene Diagramme für integrierte Metriken anpassen, indem Sie den Diagrammtyp ändern.
Detaillierte Metrik-Ergebnistabelle
In der Metrikdetailtabelle können Sie eine umfassende Untersuchung der einzelnen Datenbeispiele durchführen. Hier können Sie die generierte Ausgabe sowie die zugehörige Bewertungsmetrik überprüfen. Dieser Detaillierungsgrad ermöglicht es Ihnen, datengestützte Entscheidungen zu treffen und spezifische Maßnahmen zur Verbesserung der Leistung Ihres Modells zu ergreifen.
Einige potenzielle Aktionselemente, die auf den Auswertungsmetriken basieren, können folgendes umfassen:
- Erkennung von Mustern: Durch die Filterung nach numerischen Werten und Metriken können Sie Proben mit niedrigeren Punktzahlen aufschlüsseln. Untersuchen Sie diese Beispiele, um wiederkehrende Muster oder Probleme in den Antworten Ihres Modells zu identifizieren. Beispielsweise stellen Sie möglicherweise fest, dass niedrige Bewertungen häufig auftreten, wenn das Modell Inhalte zu einem bestimmten Thema generiert.
- Modelleinschränkung: Verwenden Sie die Erkenntnisse aus Beispielen mit niedrigerer Bewertung, um die Systemaufforderungsanweisung zu verbessern oder Ihr Modell zu optimieren. Wenn Sie durchgängige Probleme z. B. mit der Kohärenz oder Relevanz feststellen, können Sie auch die Trainingsdaten oder Parameter des Modells entsprechend anpassen.
- Spaltenanpassung: Mit dem Spalten-Editor können Sie eine angepasste Ansicht der Tabelle erstellen, die sich auf die Metriken und Daten konzentriert, die für Ihre Bewertungsziele am relevantesten sind. So können Sie Ihre Analyse optimieren und Trends besser erkennen.
- Stichwortsuche: Mit dem Suchfeld können Sie nach bestimmten Wörtern oder Ausdrücken in der generierten Ausgabe suchen. Dies kann nützlich sein, um Probleme oder Muster im Zusammenhang mit bestimmten Themen oder Schlüsselwörtern zu erkennen und diese gezielt anzugehen.
Die Detailtabelle der Metriken bietet eine Fülle von Daten, die Sie bei der Verbesserung Ihres Modells unterstützen können, von der Erkennung von Mustern über die Anpassung Ihrer Ansicht für eine effiziente Analyse bis hin zur Verfeinerung Ihres Modells auf der Grundlage der erkannten Probleme.
Hier sind einige Beispiele für die Ergebnisse der Metriken für das Szenario zur Beantwortung von Fragen:
Und hier sind einige Beispiele für die Ergebnisse der Metrik für das Unterhaltungsszenario:
Für ein Szenario mit mehreren Unterhaltungen können Sie „Auswertungsergebnisse pro Austausch anzeigen“ auswählen, um die Auswertungsmetriken für jeden Austausch in einer Unterhaltung zu überprüfen.
Für eine Sicherheitsbewertung in einem multimodalen Szenario (Text + Bilder) können Sie die Bilder sowohl aus der Eingabe als auch der Ausgabe in der detaillierten Metrik-Ergebnistabelle überprüfen, um das Auswertungsergebnis besser zu verstehen. Da die multimodale Auswertung derzeit nur für Unterhaltungsszenarien unterstützt wird, können Sie „Auswertungsergebnisse pro Turn anzeigen“ auswählen, um die Eingabe und Ausgabe für jeden Turn zu untersuchen.
Wählen Sie das Bild aus, um es zu erweitern und anzuzeigen. Standardmäßig sind alle Bilder verschwommen, um Sie vor potenziell schädlichen Inhalten zu schützen. Um das Bild deutlich anzuzeigen, aktivieren Sie den Umschalter „Weichgezeichnetes Bild überprüfen“.
Für Risiko- und Sicherheitsmetriken stellt die Auswertung eine Schweregradbewertung und eine Begründung für die einzelnen Bewertungen bereit. Hier sind einige Beispiele für die Ergebnisse der Risiko- und Sicherheitsmetriken für das Szenario zur Beantwortung von Fragen:
Auswertungsergebnisse haben möglicherweise unterschiedliche Bedeutungen für unterschiedliche Zielgruppen. Beispielsweise können Sicherheitsbewertungen eine Bezeichnung für einen „geringen“ Schweregrad bei gewalttätigen Inhalten generieren, die möglicherweise nicht mit der Definition eines menschlichen Prüfers übereinstimmt, wie schwerwiegend dieser gewalttätige Inhalt sein könnte. Wir stellen eine Spalte für menschliches Feedback mit Daumen nach oben und Daumen nach unten bereit, wenn Sie Ihre Auswertungsergebnisse überprüfen, um anzuzeigen, welche Instanzen von einem menschlichen Prüfer genehmigt oder als falsch gekennzeichnet wurden.
Zum Verständnis der einzelnen Metriken für Inhaltsrisiken können Sie die jeweiligen Metrikdefinitionen und Schweregrade ganz einfach anzeigen, indem Sie den Metriknamen oberhalb des Diagramms auswählen, um eine detaillierte Erläuterung in einem Popupelement anzuzeigen.
Wenn bei der Ausführung ein Fehler auftritt, können Sie die Auswertungsausführung auch mit den Protokollen debuggen.
Hier sind einige Beispiele für die Protokolle, die Sie zum Debuggen der Auswertungsausführung verwenden können:
Wenn Sie einen prompt flow auswerten, können Sie die Schaltfläche Im Flow anzeigen auswählen, um zur Seite des ausgewerteten Flows zu navigieren und eine Aktualisierung Ihres Flows vorzunehmen. Beispielweise können Sie zusätzliche Metapromptanweisung hinzufügen oder einige Parameter ändern und dann die Bewertung erneut durchführen.
Verwalten und Teilen der Ansicht mit Ansichtsoptionen
Auf der Seite „Auswertungsdetails“ können Sie Ihre Ansicht anpassen, indem Sie benutzerdefinierte Diagramme oder Bearbeitungsspalten hinzufügen. Nach der Anpassung haben Sie die Möglichkeit, die Ansicht zu speichern und/oder mit anderen Personen zu teilen, indem Sie die Ansichtsoptionen verwenden. So können Sie die Auswertungsergebnisse in einem Format überprüfen, das auf Ihre Präferenzen zugeschnitten ist und die Zusammenarbeit mit Kollegen und Kolleginnen erleichtert.
Vergleichen der Auswertungsergebnisse
Um einen umfassenden Vergleich zwischen zwei oder mehr Ausführungen zu erleichtern, können Sie die gewünschten Ausführungen auswählen und den Prozess initiieren, indem Sie die Schaltfläche Vergleichen oder für eine allgemeine detaillierte Dashboardansicht die Schaltfläche Zur Dashboardansicht wechseln auswählen. Mit diesem Feature können Sie die Leistung und die Ergebnisse mehrerer Läufe analysieren und kontrastieren, was eine fundiertere Entscheidungsfindung und gezieltere Verbesserungen ermöglicht.
In der Dashboardansicht haben Sie Zugriff auf zwei wertvolle Komponenten: das Diagramm zum Vergleich der Metrikverteilung und die Vergleichstabelle. Mit diesen Tools können Sie eine parallele Analyse der ausgewählten Auswertungsläufe durchführen, sodass Sie verschiedene Aspekte der einzelnen Datenbeispiele mühelos und präzise vergleichen können.
In der Vergleichstabelle können Sie Grundwerte für den Vergleich festlegen, indem Sie auf den spezifischen Lauf gehen, den Sie als Referenzpunkt verwenden und als Basisplan festlegen möchten. Darüber hinaus können Sie durch Aktivieren der Umschaltfläche „Delta anzeigen“ die Unterschiede zwischen dem Baseline-Lauf und den anderen Läufen für numerische Werte leicht visualisieren. Darüber hinaus zeigt die Tabelle mit aktivierter Umschaltfläche „Nur Unterschied anzeigen“ nur die Zeilen an, die sich zwischen den ausgewählten Läufen unterscheiden, wobei die Identifizierung unterschiedlicher Variationen unterstützt wird.
Mithilfe dieser Vergleichsfeatures können Sie eine fundierte Entscheidung treffen, um die beste Version auszuwählen:
- Baseline-Vergleich: Durch die Festlegung eines Basislaufs können Sie einen Referenzpunkt festlegen, mit dem Sie die anderen Läufe vergleichen können. Auf diese Weise können Sie sehen, wie jede Ausführung von Ihrem gewählten Standard abweicht.
- Bewertung numerischer Werte: Die Aktivierung der Option „Delta anzeigen“ hilft Ihnen, das Ausmaß der Unterschiede zwischen der Baseline und den anderen Läufen zu verstehen. Dies ist nützlich, um zu bewerten, wie verschiedene Ausführungen in Bezug auf bestimmte Auswertungsmetriken ausgeführt werden.
- Isolierung von Unterschieden: Die Funktion „Nur Unterschiede anzeigen“ optimiert Ihre Analyse, indem sie nur die Bereiche hervorhebt, in denen es Diskrepanzen zwischen den Läufen gibt. Dies kann hilfreich sein, um zu bestimmen, wo Verbesserungen oder Anpassungen erforderlich sind.
Durch effektive Verwendung dieser Vergleichstools können Sie ermitteln, welche Version Ihres Modells oder Systems in Bezug auf Ihre definierten Kriterien und Metriken am besten geeignet ist, um letztendlich die optimale Option für Ihre Anwendung auszuwählen.
Messen von Jailbreak-Sicherheitsrisiken
Die Bewertung von Jailbreak ist eine vergleichende Messung, keine KI-unterstützte Metrik. Führen Sie Auswertungen auf zwei unterschiedlichen, „Red-Teamed“-Datasets aus: ein feindseliges Test-Baseline-Dataset im Vergleich zum gleichen feindseligen Test-Dataset mit Jailbreak-Einschleusungen im ersten Schritt. Sie können den Adversarydatensimulator verwenden, um das Dataset mit oder ohne Jailbreakinjektionen zu generieren.
Um zu verstehen, ob Ihre Anwendung anfällig für Jailbreak ist, können Sie die Baseline angeben und dann dem Umschalter „Jailbreakfehlerraten“ in der Vergleichstabelle aktivieren. Die Jailbreak-Fehlerrate wird als Prozentsatz der Instanzen in Ihrem Testdatensatz definiert, bei denen eine Jailbreak-Einfügung einen höheren Schweregrad für alle Inhaltsrisikometrik im Hinblick auf eine Baseline über die gesamte Datasetgröße generiert hat. Sie können mehrere Auswertungen in Ihrem Vergleichsdashboard auswählen, um die Unterschiede bei den Fehlerraten anzuzeigen.
Tipp
Die Jailbreakfehlerrate wird nur für Datasets derselben Größe berechnet und nur dann, wenn alle Ausführungen Inhaltsrisiko- und Sicherheitsmetriken enthalten.
Grundlegendes zu den integrierten Auswertungsmetriken
Das Verständnis der integrierten Metriken ist entscheidend für die Bewertung der Leistung und Effektivität Ihrer KI-Anwendung. Durch den Einblick in diese wichtigen Messinstrumente sind Sie besser in der Lage, die Ergebnisse zu interpretieren, fundierte Entscheidungen zu treffen und Ihre Anwendung zu optimieren, um optimale Ergebnisse zu erzielen. Weitere Informationen über die Bedeutung der einzelnen Metriken, ihre Berechnung, ihre Rolle bei der Bewertung verschiedener Aspekte Ihres Modells und die Interpretation der Ergebnisse für datengestützte Verbesserungen finden Sie unter Bewertungs- und Überwachungsmetriken.
Nächste Schritte
Erfahren Sie mehr darüber, wie Sie Ihre generativen KI-Anwendungen auswerten:
- Bewerten Ihrer generativen KI-Apps über den Playground
- Auswerten Ihrer generativen KI-Apps mit dem Azure KI Foundry-Portal oder -SDK
Erfahren Sie mehr über die Techniken zu Schadensminderung.