Was ist die Erkennung personenbezogener Informationen (Personally Identifiable Information, PII) in Azure KI Language?
Die Erkennung personenbezogener Informationen ist ein Feature von Azure KI Language. Dabei handelt es sich um eine Sammlung von Algorithmen für maschinelles Lernen und KI in der Cloud für die Entwicklung intelligenter Anwendungen, die geschriebene Sprache beinhalten. Die PII-Erkennungsfunktion kann vertrauliche Informationen in unstrukturiertem Text identifizieren, kategorisieren und unkenntlich machen. Beispiele: Telefonnummern, E-Mail-Adressen und Identifikationsdaten. Azure KI Language unterstützt die Redaktion allgemeiner personenbezogener Daten (PII) in Textform sowie Conversational PII, ein spezielles Modell für die Bearbeitung von Sprachtranskriptionen und den informelleren, gesprächigen Ton von Besprechungs- und Gesprächsprotokollen. Der Dienst unterstützt auch die Reaktion nativer Dokument-PII, wobei die Eingabe und Ausgabe strukturierte Dokumentdateien sind.
Neuerungen
Die API zur Vorschau der Erkennung von Text-PII und Unterhaltungs-PII (Version 2024-11-15-preview
) unterstützt jetzt die Option, erkannte sensible Entitäten mit einer Beschriftung zu maskieren, die über reine Schwärzungszeichen hinausgeht. Die Kundschaft hat die Möglichkeit anzugeben, ob personenbezogene Daten wie Namen und Telefonnummern, d. h. “John Doe received a call from 424-878-9192”
, mit einem Schwärzungszeichen, d. h. “******** received a call from ************”
, oder mit einem Entitätskennzeichen, d. h. “[PERSON_1] received a call from [PHONENUMBER_1]”
, maskiert werden sollen. Weitere Informationen darüber, wie Sie den Stil der Redaktionsrichtlinie für Ihre Ausgaben festlegen können, finden Sie in unseren Anleitungen.
Die Erkennungsmodelle für Unterhaltungs-PII (sowohl Version 2024-11-01-preview
als auch GA
) wurden aktualisiert, um eine verbesserte KI-Qualität und -Genauigkeit zu bieten. Der Entitätstyp „Numerische Kennung“ umfasst nun auch die Führerscheinnummer und die Medicare-Versichertennummer.
Ab Juni 2024 bieten wir nun allgemeine Verfügbarkeit für den Conversational PII-Dienst (nur in englischer Sprache). Kunden können jetzt Transkripte, Chats und andere Texte, die im Konversationsstil geschrieben sind (d.h. Text mit „ähm“s, „ah“s, mehreren Sprechern und dem Buchstabieren von Wörtern für mehr Klarheit), mit mehr Vertrauen in die KI-Qualität, Azure SLA-Unterstützung und Unterstützung der Produktivumgebung sowie mit Blick auf die Sicherheit in Unternehmen redigieren.
Tipp
Probieren Sie die PII-Erkennung im Azure KI Foundry-Portal aus. Sie können dazu eine vorhandene Language Studio-Ressource verwenden oder eine neue Azure KI Foundry-Ressource erstellen
- Schnellstarts sind Anleitungen zu den ersten Schritten, die Sie durch das Senden von Anforderungen an den Dienst führen.
- Schrittanleitungen enthalten Anweisungen zur spezifischeren oder individuelleren Verwendung des Diensts.
- Die Konzeptartikel enthalten ausführliche Beschreibungen der Funktionen und Features des jeweiligen Diensts.
Typischer Workflow
Um dieses Feature zu verwenden, übermitteln Sie Daten zur Analyse und verarbeiten die API-Ausgabe in Ihrer Anwendung. Die Analyse wird ohne zusätzliche Anpassung des Modells durchgeführt, das für Ihre Daten verwendet wird.
Erstellen Sie eine Azure KI Language-Ressource, die Ihnen den Zugriff auf die Features von Azure KI Language ermöglicht. Hierbei werden ein Kennwort (als „Schlüssel“ bezeichnet) und eine Endpunkt-URL generiert, die Sie zum Authentifizieren von API-Anforderungen verwenden können.
Erstellen Sie eine Anforderung, indem Sie entweder die REST-API oder die Clientbibliothek für C#, Java, JavaScript oder Python verwenden. Sie können auch asynchrone Aufrufe per Batchanforderung senden, um API-Anforderungen für mehrere Features in einem gemeinsamen Aufruf zu kombinieren.
Senden Sie die Anforderung, die Ihre Textdaten enthält. Ihr Schlüssel und Endpunkt werden für die Authentifizierung verwendet.
Streamen oder speichern Sie die Antwort lokal.
Unterstützung von nativen Dokumenten
Ein natives Dokument bezieht sich auf das Dateiformat, das zur Erstellung des Originaldokuments verwendet wurde, z. B. Microsoft Word (docx) oder eine portierbare Dokumentdatei (pdf). Durch die Unterstützung nativer Dokumente ist vor der Nutzung von Azure KI Language-Ressourcen keine Textvorverarbeitung mehr erforderlich. Derzeit steht die Unterstützung nativer Dokumente für die Funktion PiiEntityRecognition zur Verfügung.
Derzeit unterstützt Personenbezogene Informationen die folgenden nativen Dokumentformate:
Dateityp | Dateierweiterung | Beschreibung |
---|---|---|
Text | .txt |
Ein unformatiertes Textdokument. |
Adobe PDF | .pdf |
Ein als portierbare Dokumentdatei formatiertes Dokument |
Microsoft Word | .docx |
Eine Microsoft Word-Dokumentdatei |
Weitere Informationen finden Sie unter Verwenden nativer Dokumente für die Sprachverarbeitung.
Erste Schritte mit der Erkennung personenbezogener Informationen
Zur Verwendung der Erkennung personenbezogener Informationen übermitteln Sie Text zur Analyse und verarbeiten die API-Ausgabe in Ihrer Anwendung. Die Analyse wird ohne Anpassung des Modells durchgeführt, das für Ihre Daten verwendet wird. Es gibt zwei Möglichkeiten, die Erkennung personenbezogener Informationen zu nutzen:
Entwicklungsoption | BESCHREIBUNG |
---|---|
Language Studio | Language Studio ist eine webbasierte Plattform, mit der Sie ohne Azure-Konto und mit Ihren eigenen Daten die Verknüpfung von Entitäten mit Textbeispielen ausprobieren können, wenn Sie sich registrieren. Weitere Informationen finden Sie auf der Language Studio-Website oder im Language Studio-Schnellstart. |
REST-API oder Clientbibliothek (Azure SDK) | Integrieren Sie die Erkennung personenbezogener Informationen mithilfe der REST-API oder der Clientbibliothek, die in zahlreichen Sprachen verfügbar ist, in Ihre Anwendungen. Weitere Informationen finden Sie im Schnellstart zur Erkennung personenbezogener Informationen. |
Referenzdokumentation und Codebeispiele
Wenn Sie dieses Feature in Ihren Anwendungen verwenden, lesen Sie die folgende Referenzdokumentation und die Beispiele für Azure KI Language:
Entwicklungsoption/Sprache | Referenzdokumentation | Beispiele |
---|---|---|
REST-API | REST-API-Dokumentation | |
C# | C#-Dokumentation | Beispiele für C# |
Java | Java-Dokumentation | Java-Beispiele |
JavaScript | JavaScript-Dokumentation | JavaScript samples (JavaScript-Beispiele) |
Python | Python-Dokumentation | Python-Beispiele |
Verantwortungsbewusste künstliche Intelligenz
Zu einem KI-System gehört nicht nur die Technologie, sondern auch die Personen, die es verwenden, die davon betroffenen Personen und die Bereitstellungsumgebung. Weitere Informationen zur verantwortungsbewussten Verwendung und Bereitstellung von KI in Ihren Systemen finden Sie unter dem Transparenzhinweis für personenbezogene Informationen. Weitere Informationen finden Sie in den folgenden Artikeln:
- Transparenzhinweis für Azure KI Language
- Integration und verantwortungsvolle Verwendung
- Daten, Datenschutz und Sicherheit
Beispielszenarien
- Nutzen Sie Kennzeichen für Vertraulichkeitsstufen – Abhängig von den Ergebnissen des PII-Dienstes kann beispielsweise die Vertraulichkeitsbezeichnung „öffentlich“ auf Dokumente angewandt werden, in denen keine PII-Entitäten erkannt werden. Für Dokumente, bei denen US-Adressen und Telefonnummern erkannt werden, kann z.B. die Bezeichnung „vertraulich“ verwendet werden. Die Bezeichnung „streng vertraulich“ kann für Dokumente verwendet werden, in denen Bankleitzahlen erkannt werden.
- Persönliche Daten in Dokumenten unkenntlich machen, die eine größere Verbreitung finden – Wenn beispielsweise Kundenkontaktdaten für Mitarbeitende des Support in Service und Produktion zugänglich sind,kann das Unternehmen alle persönlichen Daten von Kund*innen außer des Namens aus der Version der Kundenhistorie entfernen, um deren Privatsphäre zu schützen.
- Persönliche Informationen unkenntlich machen, um unbewusste Vorurteile zu vermeiden – Beispielsweise kann ein Unternehmen während der Überprüfung des Lebenslaufs Name, Adresse und Telefonnummer blockieren, um unbewusste geschlechtsspezifische oder andere Vorurteile zu vermeiden.
- Ersetzen Sie personenbezogene Daten in Quelldaten für maschinelles Lernen, um Ungerechtigkeiten zu vermeiden – Wenn Sie beispielsweise Namen entfernen möchten, die beim Trainieren eines maschinellen Lernmodells das Geschlecht preisgeben könnten, können Sie den Dienst verwenden, um diese zu identifizieren und durch generische Platzhalter für das Modelltraining zu ersetzen.
- Entfernen Sie persönliche Informationen aus der Callcenter-Transkription – Wenn Sie beispielsweise Namen oder andere PII-Daten entfernen möchten, die in einem Callcenter-Gespräch zwischen dem Agenten und dem Kunden ausgetauscht wurden. Sie könnten den Dienst verwenden, um diese zu identifizieren und zu entfernen.
- Datenbereinigung für Datenforschung – Mithilfe von PII können Daten aufbereitet werden, sodass Datenwissenschaftler und Techniker damit das Training von Maschinen-Lernmodellen durchführen können. Daten unkenntlich machen, um sicherzustellen, dass Kundendaten nicht offengelegt werden.
Nächste Schritte
Es gibt zwei Möglichkeiten für die ersten Schritte zur Verwendung des Features für die Entitätsverknüpfung:
- Language Studio, eine webbasierte Plattform, mit der Sie mehrere Sprachdienstfunktionen ausprobieren können, ohne selbst programmieren zu müssen.
- Im Schnellstartartikel finden Sie eine Anleitung zum Senden von Anfragen an den Dienst mithilfe der REST-API und des Clientbibliothek-SDK.