Normalizzazione degli asset
Quando si inseriscono asset nel Microsoft Purview Data Map, origini diverse che aggiornano lo stesso asset di dati possono inviare nomi qualificati simili, ma leggermente diversi. Anche se questi nomi qualificati rappresentano lo stesso asset, lievi differenze, ad esempio un carattere aggiuntivo, possono causare l'aspetto di questi asset in superficie diversi e causare voci duplicate in Microsoft Purview. Per evitare di archiviare voci duplicate e causare confusione durante l'utilizzo del Unified Catalog, Microsoft Purview applica automaticamente la normalizzazione durante l'inserimento per garantire che tutti i nomi completi dello stesso tipo di entità siano nello stesso formato.
Ad esempio, si esegue l'analisi in un BLOB di Azure con il nome https://myaccount.file.core.windows.net/myshare/folderA/folderB/my-file.parquet
completo . Questo BLOB viene utilizzato anche da una pipeline di Azure Data Factory che aggiungerà quindi informazioni di derivazione all'asset. La pipeline ADF (Azure Data Factory) può essere configurata per leggere il file come https://myAccount.file.core.windows.net//myshare/folderA/folderB/my-file.parquet
. Anche se il nome completo è diverso, questa pipeline ADF usa la stessa parte di dati. La normalizzazione garantisce che tutti i metadati di Archiviazione BLOB di Azure e Azure Data Factory siano visibili in un singolo asset, https://myaccount.file.core.windows.net/myshare/folderA/folderB/my-file.parquet
.
Importante
Le regole elencate di seguito sono gli unici tipi di potenziale duplicazione attualmente riconosciuti da Microsoft Purview. Se si verifica una duplicazione accidentale degli asset, confrontare i nomi completi degli asset per verificare la presenza di differenze di maiuscole o caratteri aggiuntivi. Aggiornare eventuali punti di inserimento, ad esempio le pipeline ADF, in modo che i nomi completi corrispondano.
Regole di normalizzazione
Queste sono le regole di normalizzazione applicate automaticamente da Microsoft Purview.
Codifica parentesi graffe
Si applica a: Tutti gli asset
Prima: https://myaccount.file.core.windows.net/myshare/{folderA}/folder{B/
Dopo: https://myaccount.file.core.windows.net/myshare/%7BfolderA%7D/folder%7BB/
Tagliare gli spazi di sezione
Si applica a: BLOB di Azure, File di Azure, Azure Data Lake Storage Gen1, Azure Data Lake Storage Gen2, Azure Data Factory, database Azure SQL, Istanza gestita di SQL di Azure, pool di Azure SQL, Azure Cosmos DB, Ricerca cognitiva di Azure, Azure Esplora dati, Azure Condivisione dati, Amazon S3
Prima: https://myaccount.file.core.windows.net/myshare/ folder A/folderB /
Dopo: https://myaccount.file.core.windows.net/myshare/folder A/folderB/
Rimuovere gli spazi dei nomi host
Si applica a: BLOB di Azure, File di Azure, Azure Data Lake Storage Gen1, Azure Data Lake Storage Gen2, database Azure SQL, Istanza gestita di SQL di Azure, Azure SQL pool, Azure Cosmos DB, Ricerca cognitiva di Azure, Azure Esplora dati, Azure Condivisione dati, Amazon S3
Prima: https://myaccount .file. core.win dows. net/myshare/folderA/folderB/
Dopo: https://myaccount.file.core.windows.net/myshare/folderA/folderB/
Rimuovere le parentesi quadre
Si applica a: database Azure SQL, Istanza gestita di SQL di Azure, pool di Azure SQL
Prima: mssql://foo.database.windows.net/[bar]/dbo/[foo bar]
Dopo: mssql://foo.database.windows.net/bar/dbo/foo%20bar
Nota
Gli spazi tra due parentesi quadre verranno codificati
Schema minuscolo
Si applica a: BLOB di Azure, File di Azure, Azure Data Lake Storage Gen1, Azure Data Lake Storage Gen2, database Azure SQL, Istanza gestita di SQL di Azure, Azure SQL pool, Azure Cosmos DB, Ricerca cognitiva di Azure, Azure Esplora dati, Amazon S3
Prima: HTTPS://myaccount.file.core.windows.net/myshare/folderA/folderB/
Dopo: https://myaccount.file.core.windows.net/myshare/folderA/folderB/
Nome host minuscolo
Si applica a: BLOB di Azure, File di Azure, Azure Data Lake Storage Gen1, Azure Data Lake Storage Gen2, database Azure SQL, Istanza gestita di SQL di Azure, Azure SQL pool, Azure Cosmos DB, Ricerca cognitiva di Azure, Azure Esplora dati, Amazon S3
Prima: https://myAccount.file.Core.Windows.net/myshare/folderA/folderB/
Dopo: https://myaccount.file.core.windows.net/myshare/folderA/folderB/
Estensione file minuscola
Si applica a: BLOB di Azure, File di Azure, Azure Data Lake Storage Gen1, Azure Data Lake Storage Gen2, Amazon S3
Prima: https://myAccount.file.core.windows.net/myshare/folderA/data.TXT
Dopo: https://myaccount.file.core.windows.net/myshare/folderA/data.txt
Rimuovere la barra duplicata
Si applica a: BLOB di Azure, File di Azure, Azure Data Lake Storage Gen1, Azure Data Lake Storage Gen2, Azure Data Factory, database Azure SQL, Istanza gestita di SQL di Azure, pool di Azure SQL, Azure Cosmos DB, Ricerca cognitiva di Azure, Azure Esplora dati, Azure Condivisione dati, Amazon S3
Prima: https://myAccount.file.core.windows.net//myshare/folderA////folderB/
Dopo: https://myaccount.file.core.windows.net/myshare/folderA/folderB/
Converti in schema ADL
Si applica a: Azure Data Lake Storage Gen1
Prima: https://mystore.azuredatalakestore.net/folderA/folderB/abc.csv
Dopo: adl://mystore.azuredatalakestore.net/folderA/folderB/abc.csv
Rimuovi barra finale
Rimuovere la barra finale dagli asset di livello superiore per BLOB di Azure, ADLS Gen1 e ADLS Gen2.
Si applica a: BLOB di Azure, Azure Data Lake Storage Gen1, Azure Data Lake Storage Gen2
Tipi di asset: "azure_blob_container", "azure_blob_service", "azure_storage_account", "azure_datalake_gen2_service", "azure_datalake_gen2_filesystem", "azure_datalake_gen1_account".
Prima: https://myaccount.core.windows.net/
Dopo: https://myaccount.core.windows.net
Risoluzione dei problemi
Se i dati non vengono normalizzati e si verifica una duplicazione accidentale degli asset, confrontare i nomi completi degli asset per verificare la presenza di differenze di maiuscole o caratteri aggiuntivi.
Le regole elencate in precedenza sono gli unici tipi di duplicazione attualmente riconosciuti da Microsoft Purview. Se i dati non rientrano in queste regole, aggiornare eventuali punti di inserimento, ad esempio le pipeline ADF, in modo che i nomi completi corrispondano.
Se gli asset soddisfano le regole ma non vengono normalizzati, contattare il supporto tecnico.
Passaggi successivi
Eseguire l'analisi in un account Archiviazione BLOB di Azure nella mappa dati di Microsoft Purview.