Condividi tramite


Che cos'è il rilevamento di informazioni personali (PII) in Lingua di Azure AI?

Il rilevamento delle informazioni personali è una delle funzionalità offerte da Lingua di Azure AI, una raccolta di algoritmi di apprendimento automatico e intelligenza artificiale nel cloud per lo sviluppo di applicazioni intelligenti relative alla lingua scritta. La funzionalità di rilevamento delle informazioni personali consente di identificare, classificare e redigere le informazioni riservate in un testo non strutturato. Ad esempio: numeri di telefono, indirizzi e-mail e forme di identificazione. Lingua di Azure AI supporta la redazione generale delle informazioni personali del testo, nonché le informazioni personali conversazionali, un modello specializzato per la gestione delle trascrizioni vocali e il tono più informale e colloquiale delle trascrizioni delle riunioni e delle chiamate. Il servizio supporta anche la redazione delle informazioni personali dei documenti nativi, in cui l'input e l'output sono file di documento strutturati.

Novità

L'API anteprima rilevamento informazioni personali e informazioni personali di conversazione (versione 2024-11-15-preview) supporta ora l'opzione per mascherare le entità sensibili rilevate con un'etichetta oltre ai soli caratteri di rollforward. I clienti hanno la possibilità di specificare se il contenuto di informazioni personali, ad esempio nomi e numeri di telefono, “John Doe received a call from 424-878-9192”ad esempio , vengono mascherati con un carattere di redazione, ad “******** received a call from ************”esempio , o mascherato con un'etichetta di entità, ad “[PERSON_1] received a call from [PHONENUMBER_1]”esempio . Altre informazioni su come specificare lo stile dei criteri di redaction per gli output sono disponibili nelle guide pratiche.

I modelli di rilevamento delle informazioni personali conversazionali (sia versione 2024-11-01-preview GAche ) sono stati aggiornati per offrire una migliore qualità e accuratezza dell'intelligenza artificiale. Il tipo di entità identificatore numerico include ora anche Driver License e Medicare Beneficiary Identifier.

A partire da giugno 2024, viene ora fornito il supporto per la disponibilità generale del servizio informazioni personali conversazionali (solo lingua inglese). I clienti possono ora redigere trascrizioni, chat e altro testo scritto in uno stile colloquiale (ad esempio testo con "um", "ah", più relatori e l'ortografia per maggiore chiarezza) con maggiore fiducia nella qualità dell'intelligenza artificiale, nel supporto del contratto di servizio di Azure e nel supporto dell'ambiente di produzione e nella sicurezza di livello aziendale.

  • Argomenti di avvio rapido, ovvero istruzioni introduttive che guidano nell'esecuzione di richieste al servizio.
  • Guide pratiche che contengono istruzioni per l'uso del servizio in modi più specifici o personalizzati.
  • Gli articoli concettuali forniscono spiegazioni approfondite sulle caratteristiche e sulle funzionalità del servizio.

Flusso di lavoro tipico

Per usare questa funzionalità, inviare i dati per l'analisi e gestire l'output dell'API nell'applicazione. L'analisi viene eseguita così come è, senza alcuna personalizzazione del modello usato nei dati.

  1. Creare una risorsa di Lingua di Azure AI, che concede l'accesso alle funzionalità offerte da Lingua di Azure AI. Verrà generata una password (denominata chiave) e un URL dell'endpoint che verrà usato per autenticare le richieste API.

  2. Creare una richiesta usando l'API REST o la libreria client per C#, Java, JavaScript e Python. È possibile anche inviare chiamate asincrone con una richiesta batch per combinare richieste API per più funzionalità in una singola chiamata.

  3. Inviare la richiesta contenente i dati di testo. La chiave e point vengono usati per l'autenticazione.

  4. Trasmettere o archiviare la risposta in locale.

Supporto per documenti nativi

Un documento nativo fa riferimento al formato di file usato per creare il documento originale, ad esempio Microsoft Word (docx) o un file di documento portatile (pdf). Il supporto di documenti nativi elimina la necessità di pre-elaborazione del testo prima dell’uso delle funzionalità delle risorse di Lingua di Azure AI. Attualmente, il supporto dei documenti nativi è disponibile per la funzionalità PiiEntityRecognition.

Attualmente le informazioni personali supportano i formati di documento nativi seguenti:

Tipo di file Estensione di file Descrizione
Testo .txt Documento di testo non formattato.
Adobe PDF .pdf Documento formattato con file di documento portatile.
Microsoft Word .docx File di documento Microsoft Word.

Per altre informazioni, vedere Usare i documenti nativi per l'elaborazione della lingua

Introduzione al rilevamento delle informazioni personali

Per usare il rilevamento delle informazioni personali, inviare testo non strutturato e non elaborato per l'analisi e gestire l'output dell'API nell'applicazione. L'analisi viene eseguita così come è, senza alcuna personalizzazione del modello usato nei dati. Esistono due modi per usare il rilevamento delle informazioni personali:

Opzione di sviluppo Descrizione
Language Studio Language Studio è una piattaforma basata sul Web che consente di provare a collegare entità con esempi di testo senza un account Azure e usando i propri dati quando si effettua l'iscrizione. Per altre informazioni, vedere il sito Web di Language Studio o la guida introduttiva di Language Studio.
API REST o libreria client (SDK di Azure) Integrare il rilevamento delle informazioni personali nelle applicazioni usando l'API REST o la libreria client disponibile in varie lingue. Per altre informazioni, vedere la guida introduttiva al rilevamento delle informazioni personali.

Documentazione di riferimento ed esempi di codice

Quando si usa questa funzionalità nelle applicazioni, consultare la documentazione di riferimento e gli esempi seguenti per Lingua di Azure AI:

Lingua / opzione di sviluppo Documentazione di riferimento Esempi
REST API Documentazione relativa all'API REST
C# Documentazione di C# Esempi per C#
Java Documentazione di Java Esempi di Java
JavaScript Documentazione di JavaScript Esempi JavaScript
Python Documentazione di Python Esempi per Python

Intelligenza artificiale responsabile

Un sistema di intelligenza artificiale include non solo la tecnologia, ma anche le persone che lo usano, le persone interessate e l'ambiente di distribuzione. Leggere le note sulla trasparenza per le informazioni personali, per informazioni sull'uso e sulla distribuzione di intelligenza artificiale responsabile nei sistemi. Per altre informazioni, vedere gli articoli seguenti:

Scenari di esempio

  • Applicare etichette di riservatezza: ad esempio, in base ai risultati del servizio di informazioni personali, è possibile applicare un'etichetta di riservatezza pubblica ai documenti in cui non vengono rilevate entità PII. Per i documenti in cui vengono riconosciuti gli indirizzi e i numeri di telefono degli Stati Uniti, è possibile applicare un'etichetta riservata. È possibile usare un'etichetta altamente riservata per i documenti in cui vengono riconosciuti i numeri di dati bancari.
  • Redigere alcune categorie di informazioni personali da documenti che hanno una circolazione più ampia: ad esempio, se i dati di contatto del cliente sono accessibili ai rappresentanti di supporto di prima linea, l'azienda può redigere le informazioni personali del cliente oltre al nome dalla versione della cronologia dei clienti per preservare la privacy del cliente.
  • Redigere le informazioni personali in modo da ridurre i pregiudizi inconsci: ad esempio, durante il processo di revisione del curriculum di un'azienda, potrebbe essere possibile voler oscurare il nome, l'indirizzo e il numero di telefono per ridurre il pregiudizio legato al genere o a altri preconcetti..
  • Sostituire le informazioni personali nei dati di origine per l'apprendimento automatico per ridurre l'iniquità: ad esempio, se si vogliono rimuovere nomi che potrebbero rivelare il genere durante il training di un modello di Machine Learning, è possibile usare il servizio per identificarli e sostituirli con segnaposto generici per il training del modello.
  • Rimuovere le informazioni personali dalla trascrizione del call center: ad esempio, se si vogliono rimuovere nomi o altri dati personali che vengono comunicati tra l'agente e il cliente in uno scenario di call center. È possibile usare il servizio per identificarli e rimuoverli.
  • Pulizia dei dati per l'analisi scientifica dei dati: le informazioni personali possono essere usate per preparare i dati in modo che data scientist e ingegneri possano usarli per eseguire il training dei modelli di Machine Learning. Redigere i dati in modo che i dati del cliente non siano esposti.

Passaggi successivi

Esistono due modi per iniziare a usare la funzionalità di collegamento delle entità:

  • Language Studio, una piattaforma basata sul Web che consente di provare diverse funzionalità del servizio di linguaggio senza dover scrivere codice.
  • L'articolo di avvio rapido contiene istruzioni su come effettuare richieste al servizio usando l'API REST e l'SDK della libreria client.