Self-Service-Analysen und -Erkenntnisse (Vorschau)
Self-Service-Analysen und Erkenntnisse beziehen sich auf Daten, Tools und Plattformen, mit denen Geschäftsbenutzer unabhängig auf Daten zugreifen, analysieren und Erkenntnisse daraus generieren können. Die Microsoft Purview-Datengovernanceanwendung veröffentlicht das Domänenmodell von Metadaten in Fabric OneLake und AdlsG2 (Azure Data Lake Storage), sodass Kunden ihre eigenen Tools und Computetools analysieren und Erkenntnisse generieren können. Self-Service-Analysen von Datengovernancemetadaten sind wertvoll, um die kontinuierliche Verbesserung des Datenbestands-Integritätsmanagements von Kunden zu fördern und eine datengesteuerte Kultur im gesamten organization zu fördern, indem der Zugriff auf Datenbestandserkenntnisse und das Gesundheitsmanagement demokratisiert wird.
Schlüsselkomponenten
- Datenmodell: 3NF-Modell mit Domänen- und Dimensionsdetails
-
Metadaten: Datengovernancemetadaten, die Folgendes umfassen:
- Governancedomänen
- Datenprodukte
- Datenressourcen
- Glossarbegriffe
- Abonnementanforderung
- Data Quality-Regeln
- Dimensionen
- Datenqualitäts-Fakten (Pass- und Fehleranzahl)
Vorteile
- Ermächtigung: Ermöglicht Datenexperten, Datenproduktbesitzern, Data Stewards und Analysten, Datengovernancemetadaten zu untersuchen und Metadaten aus verschiedenen Quellen zu verknüpfen, um Erkenntnisse zu gewinnen.
- Flexibilität und Effizienz: Der Kunde kann zusätzlich zu sofort einsatzbereiten Berichten im Integritätsmanagement benutzerdefinierte Berichte erstellen.
- Gewandtheit: Ermöglicht es Kundenorganisationen, schneller auf Probleme mit dem Integritätsmanagement zu reagieren und Abhilfemaßnahmen zu beheben.
- Kosteneffizient: Reduziert die Notwendigkeit zum Einrichten von Plattformen und Buildtools. Alle Daten sind in OneLake verfügbar, und der Kunde kann verfügbare Tools (Fabric-Semantikmodell, PBI-Berichterstellung, Datenfluss und Notebook) in OneLake verwenden.
Derzeit verfügbare Berichte (sofort einsatzbereit)
Hier finden Sie die verfügbaren sofort einsatzbereiten Berichte. Diese Berichte können nicht angepasst werden.
- Klassische Ressourcen: Eine Übersicht über Ressourcen nach Typ und Sammlung sowie deren Zusammenstellung status.
- Einführung des klassischen Katalogs – um auf einen Blick zu verstehen, wie Unified Catalog verwendet wird. Ihr Glossar, das eine Momentaufnahme von Begriffen und deren status bereitstellt.
- Klassische Klassifizierungen : Eine Übersicht über klassifizierte Ressourcen und die Arten von Klassifizierungen.
- Klassische Data Stewardship : Eine Übersicht über klassifizierte Ressourcen und die Arten von Klassifizierungen.
- Klassisches Glossar : Integrität und Verwendung von Glossarbegriffen.
- Klassische Vertraulichkeitsbezeichnungen – eine Übersicht über Ressourcen, auf die Vertraulichkeitsbezeichnungen und die Typen angewendeter Bezeichnungen angewendet wurden.
- Datengovernance : Der Integritätsbericht zur Datengovernance ermöglicht es Ihrem Team, Ihren Integritätsfortschritt auf einen Blick nachzuverfolgen und Bereiche zu identifizieren, in denen mehr Arbeit erforderlich ist.
- Integrität der Datenqualität : Leistungsberichte für Datenqualitätsdimensionen und Data Quality-Regeln.
Datenmodell für Self-Service-Analysemetadaten
Das 3NF-Domänenmodell ist Teil des Normalisierungsprozesses im Relationalen Datenbankentwurf, der sicherstellt, dass die Datenbank frei von Redundanz und Aktualisierungsanomalien ist. Ein Datenbankschema weist die dritte Normalform auf, wenn es die Anforderungen des ersten und zweiten normalen Forms erfüllt und alle zugehörigen Attribute funktional nur vom Primärschlüssel abhängig sind. Der Zweck des 3NF-Domänenmodells wird verwendet, um Daten auf eine Weise zu strukturieren, die Duplizierung minimiert und die Datenintegrität sicherstellt. Der Schwerpunkt liegt auf der Aufschlüsselung von Daten in kleinere, verwandte Tabellen, in denen die einzelnen Informationen nur einmal gespeichert werden.
Charaktereigenschaften:
- Beseitigung transitiver Abhängigkeiten: Nicht-Schlüsselattribute sollten nicht von anderen Nichtschlüsselattributen abhängen.
- Logische Gruppierung: Daten werden basierend auf ihrer Funktion oder Bedeutung logisch in Domänen gruppiert.
- Entity-Relationship Diagramme (ERDs): Wird häufig verwendet, um 3NF-Domänenmodelle darzustellen, die zeigen, wie Entitäten miteinander in Beziehung stehen.
Tabellenname | Beschreibung | Beziehungsschlüssel |
---|---|---|
Bereitstellungsstatus der Zugriffsrichtlinie | Informationen zum Bereitstellungsstatus werden in dieser Tabelle gespeichert. | ProvisioningStateId |
Zugriffsrichtlinienressourcentyp | Access porlich Ressourceninformationen werden in dieser Tabelle gespeichert. | ResourceTypeId |
Zugriffsrichtliniensatz | Allgemeine Informationen zur Zugriffsrichtlinie, details zum Richtlinienanwendungsfall und wo die Richtlinie angewendet wurde usw. werden in dieser Tabelle gespeichert. | AccessPolicySetId (UniqueId), ResourceTypeId (FK), ProvisioningStateId (FK) |
Geschäftsdomäne | Geschäftsdomänenname, Beschreibung, status und Besitzdetails werden in der Tabelle "Business domain" veröffentlicht. | Parent Business Domain ID (FK), Created by User ID (FK), Last Modified by User ID (FK) |
Klassifizierung | Datenassetklassifizierungsinformationen werden in dieser Tabelle gespeichert. | ClassificationId |
Benutzerdefinierter Zugriffsanwendungsfall | Access-Anwendungsfallinformationen werden in dieser Tabelle gespeichert. | AccessPolicySetId |
Datenressource | Der Name, die Beschreibung und die Quellinformationen der Datenressource werden in dieser Tabelle gespeichert. | DataAssetId (UniqueId), DataAssetTypeId (FK), CreatedByUserId (FK), LastModifiedByUserId (FK) |
Datenobjektspalte | Der Name der Datenassetspalte, die Spaltenbeschreibung und verweise werden in dieser Tabelle gespeichert. | DataAssetId (FK), ColumnId (Unique), DataAssetTypeId (FK), DataTypeId (FK), Created by User ID (FK), Last Modified By User ID (FK) |
Zuweisung der Datenassetspaltenklassifizierung | Verweisschlüssel im Zusammenhang mit der Datenklassifizierungszuweisung werden in dieser Tabelle gespeichert. | DataAssetId (FK), ColumnId (FK), ClassificationId (FK) |
Zuweisung der Datenassetdomäne | Informationen zur Domänenzuweisung von Datenasset-Governance finden Sie in dieser Tabelle. | DataAssetId (FK), BusinessDomainId (FK), AssignedByUserId (FK) |
Besitzer der Datenressource | Datenobjektbesitzerinformationen, die in dieser Tabelle gespeichert sind. | DataAssetOwnerId |
Zuweisung des Besitzers der Datenressource | Datenobjektbesitzerzuweisungsinformationen werden in dieser Tabelle gespeichert. | DataAssetId, DataAssetOwnerId |
Datentyp des Datentyps "Data Asset Type" | Informationen zum Datentyp werden in dieser Tabelle gespeichert. | DataTypeId (UniqueId), DataAssetTypeId (FK) |
Datenprodukt | Datenproduktname, Beschreibung, Anwendungsfälle, status und andere relevante Informationen, die in dieser Tabelle gespeichert sind. | DataProductId (UniqueId), DataProductTypeId (FK), DataProductStatusId (FK), UpdateFrequencyId (FK), CreatedByUserId (FK), LastUpdatedByUserId (FK) |
Zuweisung von Datenproduktressourcen | Datenprodukt- und Datenressourcenzuweisungsinformationen werden in dieser Tabelle gespeichert. | DataProductId, DataAssetId |
Zuweisung der Geschäftsdomäne des Datenprodukts | Datenprodukt- und Governancedomänenzuweisungsinformationen werden in dieser Tabelle gespeichert. | DataProductId (FK), BusinessDomainId (FK), AssignedByUserId (FK) |
Dokumentation zum Datenprodukt | Referenzinformationen zur Datenproduktdokumentation werden in dieser Tabelle gespeichert. | DataProductId, DocumentationId |
Datenproduktbesitzer | Datenproduktbesitzerinformationen werden in dieser Tabelle gespeichert. | DataProductId, DataProductOwnerId |
Datenproduktstatus | Datenprodukt status (z. B. veröffentlichte oder entwurfsbezogene) Informationen, die in dieser Tabelle gespeichert sind. | DataProductStatusId |
Nutzungsbedingungen für Datenprodukte | Informationen zu Nutzungsbedingungen für Datenprodukte werden in dieser Tabelle gespeichert. | DataProductId, TermOfUsedId, DataAssetId |
Datentyp | In dieser Tabelle werden die Informationen zu Den Produkttypen "Master", "Reference", "Operational" usw. gespeichert. | DataProductTypeId |
Datenproduktaktualisierungshäufigkeit | Die Informationen darüber, wie oft die Daten dieses Datenprodukts aktualisiert werden, werden in dieser Tabelle gespeichert. | UpdateFrequencyId |
Ausführung der Data Quality-Medienobjektregel | In dieser Tabelle gespeicherte Ergebnisse der Datenqualitätsüberprüfung | RuleId (FK), DataAssetId (FK), JobExecutionId (FK) |
Data Quality-Auftragsausführung | Die Ausführung von Data Quality-Aufträgen status wird in dieser Tabelle gespeichert. | JobExecutionId (UniqueId) |
Datenqualitätsregel | Informationen zu Datenqualitätsregeln werden in dieser Tabelle gespeichert. | RuleId (UniqueId), RuleTypeId (FK), BusinessDomainId (FK), DataProductId (FK), DataAssetId (FK), JobTypeDisplayName (FK), RuleOriginDisplayName (FK), RuleTargetObjectType (FK), CreatedByUserId (FK), LastUpdatedByUserId (FK) |
Ausführung der Datenqualitätsregelspalte | In dieser Tabelle werden Informationen zu den Datenqualitätsregeln pass- und fail count, der Datenqualitätsbewertung auf Spaltenebene und details zur Ausführung des Data Quality-Auftrags gespeichert. | RuleId (FK), DataAssetId (FK), ColumnId (FK), JobExecutionId (FK) |
Data Quality-Regeltyp | Der Data Quality-Regeltyp und die zugeordneten Dimensionen werden in dieser Tabelle gespeichert. | RuleTypeId (UniqueId), DimensionDisplayName (FK) |
Datenabonnementanforderung | Informationen zu Datenabonnenten, angewendeten Richtlinien, abonnementanforderung status und anderen relevanten Informationen, die in dieser Tabelle gespeichert sind. | SubscriberRequestId (UniqueId), SubscriberIdentityTypeDisplayName (FK), RequestorIdentityTypeDisplayName (FK), RequestorStatusDisplayName (FK) |
Glossarbegriff | Informationen zum Glossarbegriff, zur Beschreibung und zum allgemeinen status des Glossarbegriffs werden in dieser Tabelle gespeichert. | GlossaryTermId (UniqueId), ParentGlossaryTermId (FK), CreatedByUserId (FK), LastModifiedByUserId (FK) |
Glossarbegriff Geschäftsdomänenzuweisung | Informationen zu Zuweisungen und Status von Glossarbegriffen für Governancedomänen werden in dieser Tabelle gespeichert. | GlossaryTermId (FK), BusinessDomainId (FK), AssignedByUserId (FK), GlossaryTermStatusId (FK), CreatedByUserId (FK), LastUpdatedByUserId (FK) |
Glossar term data product assignment | Informationen zur Produktzuweisung von Glossarbegriffsdaten werden in dieser Tabelle gespeichert. | GlossaryTermId (FK), DataProductId (FK), AssignedByUserId (FK), GlossaryTermStatusId (FK), CreatedByUserId (FK), LastUpdatedByUserId (FK) |
Genehmigend für Richtliniensatz | Richtliniensatz und die Informationen zur genehmigenden Person werden in dieser Tabelle gespeichert. | SubscriberRequestId (FK), AccessPolicySetId (FK), ApproverUserId (FK) |
Beziehung | Informationen zu Quelltyp- und Zielinformationen werden in dieser Tabelle gespeichert. | AccountId, SourceId, TargetId |
Abonnieren von Microsoft Purview-Katalogmetadaten für Fabric OneLake
Sie können die Datengovernancemetadaten von Microsoft Purview für Analysen abonnieren und Erkenntnisse ableiten, indem Sie die folgenden Schritte ausführen:
Wählen Sie im linken Bereich Einstellungen aus, wählen Sie Unified Catalog und dann Lösungsintegrationen aus.
Wählen Sie Bearbeiten aus.
Fügen Sie den Speichertyp hinzu, und aktivieren Sie das Setup.
Standort-URL hinzufügen (Beispiel:
https://onelake.dfs.fabric.microsoft.com/workspace name/lakehouse name/Files/purviewmetadata
)- Wählen Sie Eigenschaften aus, um die URL zu kopieren.
- Kopieren Sie die URL von der Seite Eigenschaften .
Hinzufügen des Ordnernamens am Ende der URL – Beispiel: /DEH (siehe Screenshot)
Gewähren Sie Mitwirkender Zugriff auf Microsoft Purview Manage Service Identity (MSI) auf Ihren Fabric-Arbeitsbereich.
Testen sie die Verbindung.
Wählen Sie Speichern aus, um die Konfiguration zum Veröffentlichen von Purview-Metadaten in Ihrem OneLake-Arbeitsbereich zu speichern.
Erstellen eines Semantikmodells in OneLake
Ein semantisches Modell im Kontext von Daten und Analysen bezieht sich auf eine strukturierte Darstellung von Daten, die die Bedeutung, Beziehungen und Regeln innerhalb einer bestimmten Domäne definiert. Es bietet eine Abstraktionsebene, die Benutzern hilft, komplexe Daten zu verstehen und mit ihnen zu interagieren, indem sie intuitiver und zugänglicher werden, insbesondere im Kontext von Business Intelligence (BI) und Analyseplattformen. Ein semantisches Modell ist immer erforderlich, bevor Berichte erstellt werden können. Innerhalb des Warehouses kann ein Benutzer dem standardmäßigen Power BI-Semantikmodell Warehouse-Objekte – Tabellen oder Sichten – hinzufügen. Sie können auch andere semantische Modellierungseigenschaften hinzufügen, z. B. Hierarchien und Beschreibungen. Diese Eigenschaften werden dann verwendet, um die Tabellen des Power BI-Semantikmodells zu erstellen. Benutzer können auch Objekte aus dem Standardmäßigen Power BI-Semantikmodell entfernen.
So erstellen Sie ein semantisches Modell aus dem Microsoft Purview Data Governance-Metadatendomänenmodell:
Öffnen Sie lakehouse in Ihrem Fabric-Arbeitsbereich.
Veröffentlichen der Domänenmodelldateien in Deltatabellen
- Wählen Sie die Schaltfläche mit den Auslassungspunkten (...)
- Wählen Sie **In Tabellen > laden Neue Tabelle aus.
- Neuer Tabellenname vorab aufgefüllt
- Wählen Sie Dateityp parquet aus.
Sie können auch eine Verknüpfung verwenden, um das Domänenmodell aus OneLake und in OneLake zu verknüpfen.
- Wählen Sie die Schaltfläche mit den Auslassungspunkten (...) von Tabellen aus.
- Wählen Sie Neue Verknüpfung und dann Microsoft OneLake auf der Seite Neue Verknüpfungsquellen aus.
- Auswählen der Domänenmodelltabelle für die Verknüpfung
Nachdem Sie alle Dateien entweder manuell oder per Verknüpfung in Deltatabellen veröffentlicht haben, können Sie die Deltatabellen dem Semantikmodell hinzufügen.
- Wechseln Sie von der Seite Lakehouse zur Endpunktseite für die SQL-Analyse.
- Wählen Sie oben links auf der Seite des SQL-Analyseendpunktsberichterstellung aus.
- Wählen Sie Standardsemantikmodell verwalten aus.
- Wählen Sie die Tabellen aus dbo > Tables aus, die Sie dem semantischen Modell für die Berichterstellung hinzufügen möchten.
Wählen Sie Zum Hinzufügen von Objekten wie Tabellen oder Sichten zum Standardmäßigen Power BI-Semantikmodell die Option Semantikmodell automatisch aktualisieren aus.
Hinweis
Sie müssen eine semantische Modellbeziehung manuell mithilfe der Beziehungsschlüssel zeichnen.
Abonnieren von Microsoft Purview-Katalogmetadaten für AdlsG2-Speicher
Sie können die Datengovernancemetadaten von Microsoft Purview abonnieren, um sie in Ihrem AdlsG2-Speicher für Analysen zu veröffentlichen und zu speichern und Erkenntnisse abzuleiten, indem Sie die folgenden Schritte ausführen:
Wählen Sie im linken Bereich Einstellungen aus, wählen Sie Unified Catalog und dann Lösungsintegrationen aus.
Wählen Sie Bearbeiten aus.
Wählen Sie Speichertyp aus. und aktiviert das Setup.
Fügen Sie location URL hinzu. Dies muss AdlsG2-Pfad + "/(Containername)" sein.
- Wechseln Sie zu portal.azure.com
- Auswählen von adlsg2-Speicher (Home > adlsg2)
- Wechseln Sie zu Einstellungen>Endpunkte , und wählen Sie Primärer Endpunkt Ihres Data Lake-Speichers aus.
Gewähren von Storage Blob Data Contributor Zugriff auf Microsoft Purview Manage Service Identity (MSI) für Ihren AdlsG2-Container
Testen sie die Verbindung.
Wählen Sie die Registerkarte Speichern aus, um die Konfiguration zum Veröffentlichen des Domänenmodells in Ihrem adlsg2-Speicher zu speichern.
Überprüfen des veröffentlichten Modells und der Daten
Portal.azure.com öffnen
Auswählen Ihres adlsg2-Speichers
Wählen Sie den Container aus, den Sie mit dem adlsg2-Endpunkt in Purview hinzugefügt haben.
Durchsuchen Sie die Liste der delta parquet-Dateien, die im Container veröffentlicht wurden.
Durchsuchen Sie das veröffentlichte Modell und die Metadaten (siehe abbildung unten).
Erstellen eines Power BI-Berichts
Power BI ist nativ in die gesamte Fabric-Umgebung integriert. Diese native Integration umfasst einen eindeutigen Modus namens DirectLake für den Zugriff auf die Daten aus dem Lakehouse, um die leistungsfähigste Abfrage- und Berichterstellungserfahrung bereitzustellen. DirectLake ist eine bahnbrechende neue Funktion, mit der Sie sehr große semantische Modelle in Power BI analysieren können. Mit DirectLake laden Sie Parquet-formatierte Dateien direkt aus einem Data Lake, ohne ein Data Warehouse oder lakehouse-Endpunkt abfragen zu müssen und ohne Daten in ein Power BI-Semantikmodell importieren oder duplizieren zu müssen. DirectLake ist ein schneller Pfad zum Laden der Daten aus dem Data Lake direkt in die Power BI-Engine, bereit für die Analyse.
Im herkömmlichen DirectQuery-Modus fragt die Power BI-Engine die Daten für jede Abfrageausführung direkt aus der Quelle ab, und die Abfrageleistung hängt von der Datenabrufgeschwindigkeit ab. DirectQuery entfällt die Notwendigkeit, Daten zu kopieren, und stellt sicher, dass alle Änderungen in der Quelle sofort in den Abfrageergebnissen widerzuspiegeln sind.
Weitere Informationen finden Sie unter Erstellen eines Power BI-Berichts in Microsoft Fabric.
Wichtig
- Der Standardaktualisierungszyklus ist alle 24 Stunden.
- Purview MSI benötigt Mitwirkender Zugriff auf Ihren Fabric-Arbeitsbereich, wenn Sie Microsoft Purview-Metadaten abonnieren, um sie in Ihrem Fabric Worksapce zu veröffentlichen.
- Purview MSI benötigt Storage Blob Data Contributor-Zugriff auf Ihre Azure Data Lake Storage Gen2, wenn Sie Purview-Metadaten für die Veröffentlichung in Ihrem adlsg2-Container subscrbingen.
Hinweis
- Das Planen des Datenaktualisierungsauftrags wird noch nicht unterstützt.
- VNET wird noch nicht unterstützt.