Condividi tramite


Esportare i dati di origine per i tipi di informazioni sensibili basati sulla corrispondenza dei dati esatti

Consiglio

Se non si è cliente E5, usa la versione di valutazione delle soluzioni Microsoft Purview di 90 giorni per esplorare in che modo funzionalità aggiuntive di Purview possono aiutare l'organizzazione a gestire le esigenze di sicurezza e conformità dei dati. Iniziare ora dall'hub delle versioni di valutazione di Microsoft Purview. Informazioni dettagliate sui termini di registrazione e prova.

Si applica a

La tabella dati sensibili è un file di testo contenente righe di valori con cui si confronta il contenuto dei documenti per identificare i dati sensibili. Questi valori possono essere informazioni personali, record di prodotto o altri dati sensibili in forma di testo che si desidera rilevare nel contenuto e proteggere.

Dopo aver esportato i dati nella tabella (in uno dei formati supportati), è possibile creare uno schema EDM.

Definizione del tipo sensibile EDM

Quando si definisce il tipo sensibile EDM, una delle decisioni più importanti consiste nel definire quali campi sono i campi primari. I campi primari devono seguire un modello rilevabile ed essere definiti come campi ricercabili (colonne) nello schema EDM. I campi secondari non devono seguire alcun criterio perché verranno confrontati con tutto il testo che circonda le corrispondenze con i campi primari.

Usare queste regole per decidere quali colonne usare come campi primari:

  • Se è necessario rilevare i dati sensibili in base alla presenza di un singolo valore corrispondente a un campo nella tabella dati sensibili, indipendentemente dalla presenza di altri dati sensibili che lo circondano, tale colonna deve essere definita come elemento primario per un SIT EDM.
  • Se nel contenuto devono essere rilevate più combinazioni di campi diversi nella tabella dati sensibili, identificare le colonne comuni alla maggior parte di tali combinazioni e designarle come elementi primari. Designare le combinazioni degli altri campi come elementi secondari.
  • Se una colonna da usare come elemento primario non segue un modello rilevabile, ad any text string esempio o segue modelli rilevabili che sarebbero presenti in una percentuale elevata di documenti o messaggi di posta elettronica, scegliere altre colonne meglio strutturate come elementi primari.

Ad esempio, se sono presenti le colonne full name, , account numberdate of birthe Social Security Number, anche se il nome e il cognome sono le colonne comuni alle diverse combinazioni di dati che si desidera rilevare, tali stringhe non seguono modelli facilmente identificabili e potrebbero essere difficili da definire come tipo di informazioni sensibili. Esistono vari motivi per questo:

  • alcuni nomi potrebbero non iniziare con un carattere maiuscolo
  • alcuni potrebbero essere formati da due, tre o più parole/stringhe
  • alcuni potrebbero contenere numeri o altri caratteri non alfabetici. Le date di nascita possono essere identificate più facilmente ma, poiché ogni e-mail e la maggior parte dei documenti conterrà almeno una data, anche un DateOfBirth campo non è un buon candidato. Usare invece campi come i numeri di previdenza sociale e i numeri di conto, che sono buoni candidati per i campi primari.

Modelli di file di esempio

Per semplificare la selezione dei campi primari, sono stati messi insieme alcuni modelli di file di esempio per:

Si tratta di file con valori delimitati da virgole (.csv) con i valori più comunemente usati in tali verticali del settore come intestazioni di colonna, insieme ai valori sintetici generati da Microsoft nelle righe. Usare le intestazioni di colonna per decidere i campi primari. La procedura consigliata consiste nell'esportare solo i dati di origine necessari. Le intestazioni di colonna suggeriscono i campi più rilevanti.

Per informazioni su come usare i modelli di file di esempio, vedere Come usare i modelli di file di esempio.

Salvare i dati sensibili in formato.csv, tsv o separato da pipe

  1. Identificare le informazioni sensibili da usare. Esportare i dati in un'app come Microsoft Excel e salvare il file come file di testo. Il file può essere salvato in uno dei formati seguenti: .csv (valori delimitati da virgole), tsv (valori separati da tabulazioni) o (|)(separato da pipe). Il formato con estensione tsv è consigliato nei casi in cui i valori dei dati potrebbero includere virgole, ad esempio indirizzi stradali. Il file di dati può includere al massimo:

    • Fino a 100 milioni di righe di dati sensibili
    • Fino a 32 colonne (campi) per origine dati
    • Fino a 10 colonne (campi) contrassegnate come ricercabili
  2. Strutturare i dati sensibili nel file .csv o tsv in modo che la prima riga includa i nomi dei campi usati per la classificazione basata su EDM. Nel file potrebbero essere presenti nomi di campo come "ssn", "birthdate", "firstname", "lastname". I nomi delle intestazioni di colonna non possono includere spazi o caratteri di sottolineatura. Ad esempio, il file .cvs di esempio usato in questo articolo è denominatoPatientRecords. csv e le relative colonne includono PatientID, MRN, LastName, FirstName, SSN e così via.

  3. Prestare attenzione al formato dei campi dati sensibili; in particolare, i campi che potrebbero contenere virgole nel contenuto. Ad esempio, un indirizzo che contiene il valore "Seattle, WA" verrà analizzato come due campi separati se viene selezionato il formato .csv. Per evitare questo errore, usare il formato tsv o racchiudere la virgola contenente valori da virgolette doppie nella tabella dei dati sensibili. Se anche la virgola contenente valori contiene spazi, è necessario creare un sit personalizzato che corrisponda al formato corrispondente. Ad esempio, un sit che rileva la stringa di più parole con virgole e spazi.

Passaggio successivo

o

Vedere anche