Einrichten einer Datenquellenverbindung zum Verbinden von Datenquellen für die Datenqualitätsbewertung
Datenquellenverbindungen richten die Authentifizierung ein, die erforderlich ist, um ein Profil Ihrer Daten für statistische Momentaufnahme zu erstellen oder Ihre Daten auf Datenqualitätsanomalien und Bewertungen zu überprüfen.
Das Einrichten von Datenquellenverbindungen ist der vierte Schritt im Lebenszyklus der Datenqualität für eine Datenressource. Die vorherigen Schritte sind:
- Weisen Sie Benutzern Data Quality Steward-Berechtigungen in Unified Catalog zu, um alle Data Quality-Features zu verwenden.
- Registrieren und überprüfen Sie eine Datenquelle in Ihrem Microsoft Purview Data Map.
- Hinzufügen Ihrer Datenressource zu einem Datenprodukt
Voraussetzungen
- Um Verbindungen mit Datenassets herzustellen, müssen Ihre Benutzer in der Rolle Data Quality Steward sein.
- Sie benötigen mindestens Lesezugriff auf die Datenquelle, für die Sie die Verbindung einrichten.
Unterstützte Multiclouddatenquellen
- Azure Data Lake Storage Gen2
- Dateitypen: Delta Parquet und Parquet
- Azure SQL-Datenbank
- Fabric-Datenbestand in OneLake einschließlich Verknüpfungs- und Spiegelungsdatenbestand. Die Data Quality-Überprüfung wird nur für Lakehouse-Deltatabellen und Parquet-Dateien unterstützt.
- Spiegelungsdatenbestand: Cosmos DB, Snowflake, Azure SQL
- Verknüpfungsdatenbestand: AWS S3, GCS, AdlsG2
- Azure Synapse serverlos und Data Warehouse
- Azure Databricks Unity Catalog
- Schneeflocke
- Google Big Query (private Vorschau)
Derzeit kann Microsoft Purview nur Überprüfungen zur Datenqualität mit verwalteter Identität als Authentifizierungsoption ausführen. Data Quality-Dienste werden unter Apache Spark 3.4 und Delta Lake 2.4 ausgeführt.
Wichtig
Für den Zugriff auf diese Quellen müssen Sie entweder ihre Azure Storage-Quellen so festlegen, dass sie eine offene Firewall haben, Vertrauenswürdige Azure-Dienste zulassen oder private Endpunkte verwenden, die im Konfigurationshandbuch für verwaltete virtuelle Netzwerke für Datenqualität dokumentiert sind.
Einrichten der Datenquellenverbindung
Wählen Sie in Unified Catalog Die Option Integritätsverwaltung und dann Datenqualität aus.
Wählen Sie in der Liste eine Governancedomäne aus.
Wählen Sie in der Dropdownliste Verwalten die Seite Connections aus, um Verbindungen zu öffnen.
Wählen Sie Neu aus, um eine neue Verbindung für die Datenprodukte und Datenressourcen Ihrer Governancedomäne zu erstellen.
Geben Sie im rechten Bereich die folgenden Informationen ein:
- Anzeigename
- Beschreibung
Wählen Sie Quelltyp und dann eine der Datenquellen aus.
Geben Sie je nach Datenquelle die Zugriffsdetails ein.
Wenn die Testverbindung erfolgreich ist, übermitteln Sie die Verbindungskonfiguration, um die Verbindungseinrichtung abzuschließen.
Tipp
Sie können auch eine Verbindung mit Ihren Ressourcen herstellen, indem Sie private Endpunkte und ein Microsoft Purview Data Quality verwaltetes virtuelles Netzwerk verwenden. Weitere Informationen finden Sie im Artikel Verwaltetes virtuelles Netzwerk.
Die Schritte zum Einrichten der Verbindung variieren für native Connectors. Überprüfen Sie die Schritte zum Einrichten der Verbindung aus den Dokumenten nativer Connectors, um die Verbindung für Azure Databricsks-, Snowflake-, GoogBigQuery- und Synapse-Connectors einzurichten.
Erteilen von Microsoft Purview-Berechtigungen für die Quelle
Nachdem die Verbindung erstellt wurde, benötigt Ihre verwaltete Microsoft Purview-Identität Berechtigungen für Ihre Datenquellen, um Datenquellen überprüfen zu können:
Zum Überprüfen Azure Data Lake Storage Gen2 muss die Rolle "Speicherblobdatenleser" der verwalteten Microsoft Purview-Identität zugewiesen werden. Sie können die Schritte auf der Quellseite ausführen, um Berechtigungen für verwaltete Identitäten zuzuweisen.
Um eine Azure SQL-Datenbank zu überprüfen, weisen Sie der verwalteten Microsoft Purview-Identität db_datareader Rolle zu. Sie können die Schritte auf der Quellseite ausführen, um Berechtigungen für verwaltete Identitäten zuzuweisen.
Verwandte Inhalte
- Datenqualität für Fabric-Datenbestand
- Datenqualität für gespiegelte Fabric-Datenquellen
- Datenquellen mit verknüpfungsverknüpften Datenquellen für Die Datenqualität für Fabric
- Data Quality für Azure Synapse serverlose und Data Warehouses
- Data Quality für Azure Databricks Unity Catalog
- Datenqualität für Snowflake-Datenquellen
- Datenqualität für Google Big Query
Nächste Schritte
- Konfigurieren und Ausführen der Datenprofilerstellung für ein Medienobjekt in Ihrer Datenquelle.
- Richten Sie Datenqualitätsregeln basierend auf den Profilerstellungsergebnissen ein, und wenden Sie sie auf Ihre Datenressource an.
- Konfigurieren und Ausführen einer Datenqualitätsüberprüfung für ein Datenprodukt, um die Qualität aller unterstützten Ressourcen im Datenprodukt zu bewerten.
- Überprüfen Sie Ihre Scanergebnisse , um die aktuelle Datenqualität Ihres Datenprodukts zu bewerten.