Lernen von Textmoderationskonzepten
Verwenden Sie Textmoderationsmodelle von Content Moderator, um Textinhalte wie Chatrooms, Diskussionsforen, Chatbots, E-Commerce-Kataloge und Dokumente zu analysieren.
Die Antwort des Diensts enthält folgende Informationen:
- Obszönitäten: begriffsbasierter Abgleich mit einer integrierten Liste anstößiger Begriffe in verschiedenen Sprachen
- Klassifizierung: Computergestützte Klassifizierung in drei Kategorien
- Personenbezogene Daten
- Automatisch korrigierter Text
- Ursprünglicher Text
- Sprache
Obszönitäten
Wenn die API anstößige Begriffe in einer der unterstützten Sprachen erkennt, werden diese Begriffe in die Antwort aufgenommen. Die Antwort enthält auch deren Position (Index
) im ursprünglichen Text. ListId
im folgenden JSON-Beispielcode bezieht sich auf Begriffe aus benutzerdefinierten Begriffslisten, sofern verfügbar.
"Terms": [
{
"Index": 118,
"OriginalIndex": 118,
"ListId": 0,
"Term": "<offensive word>"
}
Hinweis
Weisen Sie für den Parameter language entweder eng
zu, oder lassen Sie ihn leer, um die computergestützte Klassifizierungsantwort (Vorschaufeature) zu erhalten. Dieses Feature wird nur für Englisch unterstützt.
Verwenden Sie für die Erkennung anstößiger Begriffe den ISO 639-3-Code der unterstützten Sprachen aus diesem Artikel, oder lassen Sie ihn leer.
Klassifizierung
Das computergestützte Textklassifizierungsfeature von Content Moderator wird nur für Englisch unterstützt und hilft bei der Erkennung potenziell unerwünschter Inhalte. Die gekennzeichneten Inhalte werden je nach Kontext unter Umständen als ungeeignet bewertet. Das Feature vermittelt die Wahrscheinlichkeit jeder Kategorie. Für das Feature wird ein trainiertes Modell verwendet, um Äußerungen zu identifizieren, die unter Umständen beleidigend, abfällig oder diskriminierend sind. Hierzu gehören auch Jargon und Abkürzungen sowie anstößige und absichtlich falsch geschriebene Wörter.
Der folgende Auszug aus dem JSON-Auszug zeigt eine Beispielausgabe:
"Classification": {
"ReviewRecommended": true,
"Category1": {
"Score": 1.5113095059859916E-06
},
"Category2": {
"Score": 0.12747249007225037
},
"Category3": {
"Score": 0.98799997568130493
}
}
Erklärung
Category1
gibt an, dass unter Umständen Sprache vorhanden ist, die in bestimmten Situationen als sexuell freizügig oder nicht jugendfrei betrachtet werden kann.Category2
gibt an, dass unter Umständen Sprache vorhanden ist, die in bestimmten Situationen als zweideutig bzw. anzüglich oder als nur für Erwachsene bestimmt betrachtet werden kann.Category3
gibt an, dass unter Umständen Sprache vorhanden ist, die in bestimmten Situationen als anstößig betrachtet werden kann.Score
ist ein Wert zwischen 0 und 1. Je höher der Wert, desto höher die vom Modell ermittelte Wahrscheinlichkeit, dass die Kategorie zutreffend ist. Diese Funktion basiert nicht auf manuell programmierten Ergebnissen, sondern auf einem statistischen Modell. Es wird empfohlen, anhand Ihrer eigenen Inhalte zu testen, wie die jeweiligen Kategorien zu Ihren Anforderungen passen.ReviewRecommended
ist entweder „true“ oder „false“ (abhängig von den internen Ergebnisschwellenwerten). Kunden müssen entscheiden, ob sie diesen Wert verwenden oder auf der Grundlage ihrer Inhaltsrichtlinien eigene Schwellenwerte festlegen möchten.
Personenbezogene Daten
Das Feature für personenbezogene Daten erkennt, ob unter Umständen Daten dieser Art vorhanden sind:
- E-Mail-Adresse
- US-Postanschrift
- IP-Adresse
- US-Telefonnummer
Das folgende Beispiel zeigt eine exemplarische Antwort:
"pii":{
"email":[
{
"detected":"abcdef@abcd.com",
"sub_type":"Regular",
"text":"abcdef@abcd.com",
"index":32
}
],
"ssn":[
],
"ipa":[
{
"sub_type":"IPV4",
"text":"255.255.255.255",
"index":72
}
],
"phone":[
{
"country_code":"US",
"text":"6657789887",
"index":56
}
],
"address":[
{
"text":"1 Microsoft Way, Redmond, WA 98052",
"index":89
}
]
}
Autokorrektur
Die Textmoderationsantwort kann den Text optional mit der grundlegenden automatischen Korrektur zurückgeben.
Beispielsweise weist der folgende Eingabetext einen Rechtschreibfehler auf.
The quick brown fox jumps over the lazzy dog.
Bei Verwendung der Autokorrektur enthält die Antwort die korrigierte Version des Texts:
The quick brown fox jumps over the lazy dog.
Erstellen und Verwalten benutzerdefinierter Begriffslisten
Die standardmäßige globale Begriffsliste deckt zwar die meisten Fälle ab, in bestimmten Fällen möchten Sie Inhalte aber ggf. auf spezielle Begriffe im Zusammenhang mit Ihren geschäftlichen Anforderungen überprüfen. So kann es beispielsweise wünschenswert sein, Markennamen von Mitbewerbern aus Benutzerbeiträgen herauszufiltern.
Hinweis
Die Obergrenze liegt bei fünf Benennungslisten, wobei jede Liste max. 10.000 Benennungen enthalten kann.
Das folgende Beispiel zeigt die entsprechende Listen-ID:
"Terms": [
{
"Index": 118,
"OriginalIndex": 118,
"ListId": 231.
"Term": "<offensive word>"
}
Content Moderator bietet eine Begriffslisten-API mit Vorgängen für die Verwaltung benutzerdefinierter Begriffslisten. Falls Sie mit Visual Studio und C# vertraut sind, sehen Sie sich den .NET-Schnellstart für Begriffslisten an.
Nächste Schritte
Testen Sie die APIs mit dem Schnellstart.