Condividi tramite


Normalizzazione degli asset

Quando si inseriscono asset nel Microsoft Purview Data Map, origini diverse che aggiornano lo stesso asset di dati possono inviare nomi qualificati simili, ma leggermente diversi. Anche se questi nomi qualificati rappresentano lo stesso asset, lievi differenze, ad esempio un carattere aggiuntivo, possono causare l'aspetto di questi asset in superficie diversi e causare voci duplicate in Microsoft Purview. Per evitare di archiviare voci duplicate e causare confusione durante l'utilizzo del Unified Catalog, Microsoft Purview applica automaticamente la normalizzazione durante l'inserimento per garantire che tutti i nomi completi dello stesso tipo di entità siano nello stesso formato.

Ad esempio, si esegue l'analisi in un BLOB di Azure con il nome https://myaccount.file.core.windows.net/myshare/folderA/folderB/my-file.parquetcompleto . Questo BLOB viene utilizzato anche da una pipeline di Azure Data Factory che aggiungerà quindi informazioni di derivazione all'asset. La pipeline ADF (Azure Data Factory) può essere configurata per leggere il file come https://myAccount.file.core.windows.net//myshare/folderA/folderB/my-file.parquet. Anche se il nome completo è diverso, questa pipeline ADF usa la stessa parte di dati. La normalizzazione garantisce che tutti i metadati di Archiviazione BLOB di Azure e Azure Data Factory siano visibili in un singolo asset, https://myaccount.file.core.windows.net/myshare/folderA/folderB/my-file.parquet.

Importante

Le regole elencate di seguito sono gli unici tipi di potenziale duplicazione attualmente riconosciuti da Microsoft Purview. Se si verifica una duplicazione accidentale degli asset, confrontare i nomi completi degli asset per verificare la presenza di differenze di maiuscole o caratteri aggiuntivi. Aggiornare eventuali punti di inserimento, ad esempio le pipeline ADF, in modo che i nomi completi corrispondano.

Regole di normalizzazione

Queste sono le regole di normalizzazione applicate automaticamente da Microsoft Purview.

Codifica parentesi graffe

Si applica a: Tutti gli asset

Prima: https://myaccount.file.core.windows.net/myshare/{folderA}/folder{B/

Dopo: https://myaccount.file.core.windows.net/myshare/%7BfolderA%7D/folder%7BB/

Tagliare gli spazi di sezione

Si applica a: BLOB di Azure, File di Azure, Azure Data Lake Storage Gen1, Azure Data Lake Storage Gen2, Azure Data Factory, database Azure SQL, Istanza gestita di SQL di Azure, pool di Azure SQL, Azure Cosmos DB, Ricerca cognitiva di Azure, Azure Esplora dati, Azure Condivisione dati, Amazon S3

Prima: https://myaccount.file.core.windows.net/myshare/ folder A/folderB /

Dopo: https://myaccount.file.core.windows.net/myshare/folder A/folderB/

Rimuovere gli spazi dei nomi host

Si applica a: BLOB di Azure, File di Azure, Azure Data Lake Storage Gen1, Azure Data Lake Storage Gen2, database Azure SQL, Istanza gestita di SQL di Azure, Azure SQL pool, Azure Cosmos DB, Ricerca cognitiva di Azure, Azure Esplora dati, Azure Condivisione dati, Amazon S3

Prima: https://myaccount .file. core.win dows. net/myshare/folderA/folderB/

Dopo: https://myaccount.file.core.windows.net/myshare/folderA/folderB/

Rimuovere le parentesi quadre

Si applica a: database Azure SQL, Istanza gestita di SQL di Azure, pool di Azure SQL

Prima: mssql://foo.database.windows.net/[bar]/dbo/[foo bar]

Dopo: mssql://foo.database.windows.net/bar/dbo/foo%20bar

Nota

Gli spazi tra due parentesi quadre verranno codificati

Schema minuscolo

Si applica a: BLOB di Azure, File di Azure, Azure Data Lake Storage Gen1, Azure Data Lake Storage Gen2, database Azure SQL, Istanza gestita di SQL di Azure, Azure SQL pool, Azure Cosmos DB, Ricerca cognitiva di Azure, Azure Esplora dati, Amazon S3

Prima: HTTPS://myaccount.file.core.windows.net/myshare/folderA/folderB/

Dopo: https://myaccount.file.core.windows.net/myshare/folderA/folderB/

Nome host minuscolo

Si applica a: BLOB di Azure, File di Azure, Azure Data Lake Storage Gen1, Azure Data Lake Storage Gen2, database Azure SQL, Istanza gestita di SQL di Azure, Azure SQL pool, Azure Cosmos DB, Ricerca cognitiva di Azure, Azure Esplora dati, Amazon S3

Prima: https://myAccount.file.Core.Windows.net/myshare/folderA/folderB/

Dopo: https://myaccount.file.core.windows.net/myshare/folderA/folderB/

Estensione file minuscola

Si applica a: BLOB di Azure, File di Azure, Azure Data Lake Storage Gen1, Azure Data Lake Storage Gen2, Amazon S3

Prima: https://myAccount.file.core.windows.net/myshare/folderA/data.TXT

Dopo: https://myaccount.file.core.windows.net/myshare/folderA/data.txt

Rimuovere la barra duplicata

Si applica a: BLOB di Azure, File di Azure, Azure Data Lake Storage Gen1, Azure Data Lake Storage Gen2, Azure Data Factory, database Azure SQL, Istanza gestita di SQL di Azure, pool di Azure SQL, Azure Cosmos DB, Ricerca cognitiva di Azure, Azure Esplora dati, Azure Condivisione dati, Amazon S3

Prima: https://myAccount.file.core.windows.net//myshare/folderA////folderB/

Dopo: https://myaccount.file.core.windows.net/myshare/folderA/folderB/

Converti in schema ADL

Si applica a: Azure Data Lake Storage Gen1

Prima: https://mystore.azuredatalakestore.net/folderA/folderB/abc.csv

Dopo: adl://mystore.azuredatalakestore.net/folderA/folderB/abc.csv

Rimuovi barra finale

Rimuovere la barra finale dagli asset di livello superiore per BLOB di Azure, ADLS Gen1 e ADLS Gen2.

Si applica a: BLOB di Azure, Azure Data Lake Storage Gen1, Azure Data Lake Storage Gen2

Tipi di asset: "azure_blob_container", "azure_blob_service", "azure_storage_account", "azure_datalake_gen2_service", "azure_datalake_gen2_filesystem", "azure_datalake_gen1_account".

Prima: https://myaccount.core.windows.net/

Dopo: https://myaccount.core.windows.net

Risoluzione dei problemi

Se i dati non vengono normalizzati e si verifica una duplicazione accidentale degli asset, confrontare i nomi completi degli asset per verificare la presenza di differenze di maiuscole o caratteri aggiuntivi.

Le regole elencate in precedenza sono gli unici tipi di duplicazione attualmente riconosciuti da Microsoft Purview. Se i dati non rientrano in queste regole, aggiornare eventuali punti di inserimento, ad esempio le pipeline ADF, in modo che i nomi completi corrispondano.

Se gli asset soddisfano le regole ma non vengono normalizzati, contattare il supporto tecnico.

Passaggi successivi

Eseguire l'analisi in un account Archiviazione BLOB di Azure nella mappa dati di Microsoft Purview.