Freigeben über


Einrichten einer Datenquellenverbindung zum Verbinden von Datenquellen für die Datenqualitätsbewertung

Datenquellenverbindungen richten die Authentifizierung ein, die erforderlich ist, um ein Profil Ihrer Daten für statistische Momentaufnahme zu erstellen oder Ihre Daten auf Datenqualitätsanomalien und Bewertungen zu überprüfen.

Das Einrichten von Datenquellenverbindungen ist der vierte Schritt im Lebenszyklus der Datenqualität für eine Datenressource. Die vorherigen Schritte sind:

  1. Weisen Sie Benutzern Data Quality Steward-Berechtigungen in Unified Catalog zu, um alle Data Quality-Features zu verwenden.
  2. Registrieren und überprüfen Sie eine Datenquelle in Ihrem Microsoft Purview Data Map.
  3. Hinzufügen Ihrer Datenressource zu einem Datenprodukt

Voraussetzungen

  1. Um Verbindungen mit Datenassets herzustellen, müssen Ihre Benutzer in der Rolle Data Quality Steward sein.
  2. Sie benötigen mindestens Lesezugriff auf die Datenquelle, für die Sie die Verbindung einrichten.

Unterstützte Multiclouddatenquellen

  • Azure Data Lake Storage Gen2
    • Dateitypen: Delta Parquet und Parquet
  • Azure SQL-Datenbank
  • Fabric-Datenbestand in OneLake einschließlich Verknüpfungs- und Spiegelungsdatenbestand. Die Data Quality-Überprüfung wird nur für Lakehouse-Deltatabellen und Parquet-Dateien unterstützt.
    • Spiegelungsdatenbestand: Cosmos DB, Snowflake, Azure SQL
    • Verknüpfungsdatenbestand: AWS S3, GCS, AdlsG2
  • Azure Synapse serverlos und Data Warehouse
  • Azure Databricks Unity Catalog
  • Schneeflocke
  • Google Big Query (private Vorschau)

Derzeit kann Microsoft Purview nur Überprüfungen zur Datenqualität mit verwalteter Identität als Authentifizierungsoption ausführen. Data Quality-Dienste werden unter Apache Spark 3.4 und Delta Lake 2.4 ausgeführt.

Wichtig

Für den Zugriff auf diese Quellen müssen Sie entweder ihre Azure Storage-Quellen so festlegen, dass sie eine offene Firewall haben, Vertrauenswürdige Azure-Dienste zulassen oder private Endpunkte verwenden, die im Konfigurationshandbuch für verwaltete virtuelle Netzwerke für Datenqualität dokumentiert sind.

Einrichten der Datenquellenverbindung

  1. Wählen Sie in Unified Catalog Die Option Integritätsverwaltung und dann Datenqualität aus.

  2. Wählen Sie in der Liste eine Governancedomäne aus.

  3. Wählen Sie in der Dropdownliste Verwalten die Seite Connections aus, um Verbindungen zu öffnen.

    Screenshot der Seite

  4. Wählen Sie Neu aus, um eine neue Verbindung für die Datenprodukte und Datenressourcen Ihrer Governancedomäne zu erstellen.

    Screenshot der Seite

  5. Geben Sie im rechten Bereich die folgenden Informationen ein:

    • Anzeigename
    • Beschreibung
  6. Wählen Sie Quelltyp und dann eine der Datenquellen aus.

  7. Geben Sie je nach Datenquelle die Zugriffsdetails ein.

  8. Wenn die Testverbindung erfolgreich ist, übermitteln Sie die Verbindungskonfiguration, um die Verbindungseinrichtung abzuschließen.

Tipp

Sie können auch eine Verbindung mit Ihren Ressourcen herstellen, indem Sie private Endpunkte und ein Microsoft Purview Data Quality verwaltetes virtuelles Netzwerk verwenden. Weitere Informationen finden Sie im Artikel Verwaltetes virtuelles Netzwerk.

Die Schritte zum Einrichten der Verbindung variieren für native Connectors. Überprüfen Sie die Schritte zum Einrichten der Verbindung aus den Dokumenten nativer Connectors, um die Verbindung für Azure Databricsks-, Snowflake-, GoogBigQuery- und Synapse-Connectors einzurichten.

Erteilen von Microsoft Purview-Berechtigungen für die Quelle

Nachdem die Verbindung erstellt wurde, benötigt Ihre verwaltete Microsoft Purview-Identität Berechtigungen für Ihre Datenquellen, um Datenquellen überprüfen zu können:

Nächste Schritte

  1. Konfigurieren und Ausführen der Datenprofilerstellung für ein Medienobjekt in Ihrer Datenquelle.
  2. Richten Sie Datenqualitätsregeln basierend auf den Profilerstellungsergebnissen ein, und wenden Sie sie auf Ihre Datenressource an.
  3. Konfigurieren und Ausführen einer Datenqualitätsüberprüfung für ein Datenprodukt, um die Qualität aller unterstützten Ressourcen im Datenprodukt zu bewerten.
  4. Überprüfen Sie Ihre Scanergebnisse , um die aktuelle Datenqualität Ihres Datenprodukts zu bewerten.