Normalisation des ressources
Lors de l’ingestion de ressources dans le mappage de données Microsoft Purview, différentes sources mettant à jour la même ressource de données peuvent envoyer des noms qualifiés similaires, mais légèrement différents. Bien que ces noms qualifiés représentent la même ressource, de légères différences telles qu’un caractère supplémentaire peuvent faire apparaître ces ressources en surface différentes et entraîner des entrées en double dans Microsoft Purview. Pour éviter de stocker des entrées en double et de provoquer une confusion lors de la consommation du catalogue de données, Microsoft Purview applique la normalisation pendant l’ingestion pour s’assurer que tous les noms complets du même type d’entité sont au même format.
Par exemple, vous analysez dans un objet blob Azure avec le nom https://myaccount.file.core.windows.net/myshare/folderA/folderB/my-file.parquet
qualifié . Cet objet blob est également consommé par un pipeline Azure Data Factory qui ajoute ensuite des informations de traçabilité à la ressource. Le pipeline ADF peut être configuré pour lire le fichier en tant que https://myAccount.file.core.windows.net//myshare/folderA/folderB/my-file.parquet
. Bien que le nom qualifié soit différent, ce pipeline ADF consomme le même élément de données. La normalisation garantit que toutes les métadonnées de Stockage Blob Azure et Azure Data Factory sont visibles sur une seule ressource, https://myaccount.file.core.windows.net/myshare/folderA/folderB/my-file.parquet
.
Importante
Les règles répertoriées ci-dessous sont les seuls types de dupilcation potentielle que Microsoft Purview reconnaît actuellement. Si vous rencontrez une duplication accidentelle de ressources, comparez les noms complets des ressources à case activée pour connaître les différences de caplitalisation ou les caractères supplémentaires. Mettez à jour tous les points d’ingestion, par exemple vos pipelines ADF, afin que les noms qualifiés correspondent.
Règles de normalisation
Vous trouverez ci-dessous les règles de normalisation appliquées par Microsoft Purview.
Encoder des accolades
S’applique à : Toutes les ressources
Avant: https://myaccount.file.core.windows.net/myshare/{folderA}/folder{B/
Après: https://myaccount.file.core.windows.net/myshare/%7BfolderA%7D/folder%7BB/
Découper les espaces de section
S’applique à : Objet blob Azure, Azure Files, Azure Data Lake Storage Gen1, Azure Data Lake Storage Gen2, Azure Data Factory, Azure SQL Database, Azure SQL Managed Instance, pool Azure SQL, Azure Cosmos DB, Recherche cognitive Azure, Azure Data Explorer, Azure Data Share, Amazon S3
Avant: https://myaccount.file.core.windows.net/myshare/ folder A/folderB /
Après: https://myaccount.file.core.windows.net/myshare/folder A/folderB/
Supprimer les espaces de nom d’hôte
S’applique à : Azure Blob, Azure Files, Azure Data Lake Storage Gen1, Azure Data Lake Storage Gen2, Azure SQL Database, Azure SQL Managed Instance, pool Azure SQL, Azure Cosmos DB, Recherche cognitive Azure, Azure Data Explorer, Azure Data Share, Amazon S3
Avant: https://myaccount .file. core.win dows. net/myshare/folderA/folderB/
Après: https://myaccount.file.core.windows.net/myshare/folderA/folderB/
Supprimer les crochets
S’applique à : base de données Azure SQL, Azure SQL Managed Instance, pool Azure SQL
Avant: mssql://foo.database.windows.net/[bar]/dbo/[foo bar]
Après: mssql://foo.database.windows.net/bar/dbo/foo%20bar
Remarque
Les espaces entre deux crochets seront encodés
Schéma en minuscules
S’applique à : Azure Blob, Azure Files, Azure Data Lake Storage Gen1, Azure Data Lake Storage Gen2, Azure SQL Database, Azure SQL Managed Instance, pool Azure SQL, Azure Cosmos DB, Recherche cognitive Azure, Azure Data Explorer, Amazon S3
Avant: HTTPS://myaccount.file.core.windows.net/myshare/folderA/folderB/
Après: https://myaccount.file.core.windows.net/myshare/folderA/folderB/
Nom d’hôte en minuscules
S’applique à : Azure Blob, Azure Files, Azure Data Lake Storage Gen1, Azure Data Lake Storage Gen2, Azure SQL Database, Azure SQL Managed Instance, pool Azure SQL, Azure Cosmos DB, Recherche cognitive Azure, Azure Data Explorer, Amazon S3
Avant: https://myAccount.file.Core.Windows.net/myshare/folderA/folderB/
Après: https://myaccount.file.core.windows.net/myshare/folderA/folderB/
Extension de fichier en minuscules
S’applique à : Blob Azure, Azure Files, Azure Data Lake Storage Gen1, Azure Data Lake Storage Gen2, Amazon S3
Avant: https://myAccount.file.core.windows.net/myshare/folderA/data.TXT
Après: https://myaccount.file.core.windows.net/myshare/folderA/data.txt
Supprimer la barre oblique dupliquée
S’applique à : Objet blob Azure, Azure Files, Azure Data Lake Storage Gen1, Azure Data Lake Storage Gen2, Azure Data Factory, Azure SQL Database, Azure SQL Managed Instance, pool Azure SQL, Azure Cosmos DB, Recherche cognitive Azure, Azure Data Explorer, Azure Data Share, Amazon S3
Avant: https://myAccount.file.core.windows.net//myshare/folderA////folderB/
Après: https://myaccount.file.core.windows.net/myshare/folderA/folderB/
Convertir en schéma ADL
S’applique à : Azure Data Lake Storage Gen1
Avant: https://mystore.azuredatalakestore.net/folderA/folderB/abc.csv
Après: adl://mystore.azuredatalakestore.net/folderA/folderB/abc.csv
Supprimer la barre oblique de fin
Supprimer la barre oblique de fin des ressources de niveau supérieur pour Azure Blob, ADLS Gen1 et ADLS Gen2
S’applique à : Objet blob Azure, Azure Data Lake Storage Gen1, Azure Data Lake Storage Gen2
Types de ressources : « azure_blob_container », « azure_blob_service », « azure_storage_account », « azure_datalake_gen2_service », « azure_datalake_gen2_filesystem », « azure_datalake_gen1_account ».
Avant: https://myaccount.core.windows.net/
Après: https://myaccount.core.windows.net
Prochaines étapes
Analysez dans un compte Stockage Blob Azure dans la carte de données Microsoft Purview.