Bearbeiten

Freigeben über


Moderne Analysearchitektur mit Azure Databricks

Azure Databricks
Microsoft Fabric
Power BI
Azure Data Lake Storage

Lösungsmöglichkeiten

In diesem Artikel ist ein Lösungsvorschlag beschrieben. Ihr Cloudarchitekt kann diesen Leitfaden verwenden, um die Hauptkomponenten einer typischen Implementierung dieser Architektur zu visualisieren. Verwenden Sie diesen Artikel als Ausgangspunkt, um eine gut durchdachte Lösung zu entwerfen, die den spezifischen Anforderungen Ihrer Workload entspricht.

Diese Lösung beschreibt die moderne Datenarchitektur. Azure Databricks bildet den Kern der Lösung. Diese Plattform arbeitet nahtlos mit anderen Diensten wie Azure Data Lake Storage Gen2, Microsoft Fabric und Power BI zusammen.

Apache® und Apache Spark™ sind entweder eingetragene Marken oder Marken der Apache Software Foundation in den USA und/oder anderen Ländern. Die Verwendung dieser Markierungen impliziert kein Endorsement durch die Apache Software Foundation.

Architektur

Architekturdiagramm, das zeigt, wie eine moderne Datenarchitektur Daten sammelt, verarbeitet, analysiert und visualisiert.

Laden Sie eine Visio-Datei dieser Architektur herunter.

Datenfluss

  1. Azure Databricks erfasst rohe Streamingdaten aus Azure Event Hubs mithilfe von Delta Live Tables.

  2. Fabric Data Factory lädt unformatierte Batchdaten in Data Lake Storage Gen2.

  3. Für Datenspeicher:

    • Data Lake Storage Gen2 beherbergt Daten aller Arten, wie strukturierte, unstrukturierte und halbstrukturierte. Es speichert auch Batch- und Streaming-Daten.

    • Delta Lake bildet die kuratierte Schicht des Data Lake. Es speichert die verfeinerten Daten in einem Open-Source-Format.

    • Azure Databricks arbeitet gut mit einer Medaillon-Architektur, die Daten in Schichten organisiert:

      • Bronze: Enthält Rohdaten.
      • Silber: Enthält bereinigte, gefilterte Daten.
      • Gold: Speichert aggregierte Daten, die für Geschäftsanalysen nützlich sind.
  4. Die analytische Plattform erfasst die Daten aus den verschiedenen Batch- und Streaming-Quellen. Datenanalysten verwenden verschiedene Tools für diese Aufgaben.

    • Datenaufbereitung
    • Datenuntersuchung
    • Modellvorbereitung
    • Modelltraining

    MLflow verwaltet die Parameter-, Metrik- und Modellverfolgung in Data-Science-Code-Läufen. Die Kodiermöglichkeiten sind flexibel:

    • Code kann in SQL, Python, R und Scala sein.
    • Der Code kann beliebte Open-Source-Bibliotheken und -Frameworks wie Koalas, Pandas und scikit-learn verwenden, die vorinstalliert und optimiert sind.
    • Praktiker können Leistung und Kosten mit Single-Node- und Multi-Node-Rechenoptionen optimieren.
  5. Machine-Learning-Modelle sind in verschiedenen Formaten verfügbar:

    • Azure Databricks speichert Informationen über Modelle in der MLflow-Modellregistrierung. Die Registrierung stellt Modelle über Batch-, Streaming- und REST-APIs zur Verfügung.
    • Die Lösung kann Modelle auch auf Azure Machine Learning Web Services oder Azure Kubernetes Service (AKS) bereitstellen.
  6. Dienste, die mit den Daten arbeiten, stellen eine Verbindung mit einer einzelnen zugrunde liegenden Datenquelle her, um Konsistenz sicherzustellen. Beispielsweise können Benutzer SQL-Abfragen auf dem Datensee mit Azure Databricks SQL Warehouses ausführen. Dieser Dienst:

  7. Benutzer können Golddatensätze aus dem Databricks Unity-Katalog in Fabric spiegeln. Databricks-Spiegelung in Fabric ermöglichen Benutzern die einfache Integration ohne Datenverschiebung oder Datenreplikation.

  8. Power BI generiert analytische und historische Berichte und Dashboards aus der einheitlichen Datenplattform. Bei der Arbeit mit Azure Databricks verwendet dieser Dienst die folgenden Funktionen:

    • Ein integrierter Azure Databricks-Konnektor zur Visualisierung der zugrunde liegenden Daten.
    • Optimierte Java Database Connectivity-Treiber (JDBC) und ODBC-Treiber (Open Database Connectivity).
    • Mit der Databricks-Spiegelung in Fabric können Sie Direct Lake- nutzen, um Ihre PBI-Semantikmodelle für Abfragen mit höherer Leistung zu laden.
  9. Die Lösung verwendet Unity-Katalog- und Azure-Dienste für Zusammenarbeit, Leistung, Zuverlässigkeit, Governance und Sicherheit:

    • Der Unity-Katalog von Databricks bietet zentrale Zugriffssteuerung, Überwachung, Linien und Datenermittlungsfunktionen in Azure Databricks-Arbeitsbereichen.

    • Microsoft Purview bietet Datenermittlungsdienste, vertrauliche Datenklassifizierung und Governance-Erkenntnisse für den gesamten Datenbestand.

    • Azure DevOps bietet Continuous Integration und Continuous Deployment (CI/CD) sowie andere integrierte Features zur Versionskontrolle.

    • Azure Key Vault verwaltet Geheimnisse, Schlüssel und Zertifikate sicher.

    • Microsoft Entra ID und SCIM-Bereitstellung bietet einmaliges Anmelden (Single Sign-On, SSO) für Azure Databricks-Benutzer und -Gruppen. Azure Databricks unterstützt die automatisierte Benutzerbereitstellung mit Microsoft Entra ID für diese Aufgaben:

      • Erstellen neuer Benutzer und Gruppen.
      • Zuweisen einer Zugriffsebene für jeden Benutzer.
      • Entfernen von Benutzern und Verweigern des Zugriffs.
    • Azure Monitor erfasst und analysiert Azure-Ressourcentelemetriedaten. Durch die proaktive Identifizierung von Problemen maximiert dieser Dienst Leistung und Zuverlässigkeit.

    • Microsoft Cost Management bietet Finanzgovernancedienste für Azure-Workloads.

Komponenten

Diese Lösung verwendet die folgenden Komponenten.

Kernkomponenten

  • Azure Databricks ist eine Datenanalyseplattform, die Spark-Cluster zum Verarbeiten großer Datenströme verwendet. Es bereinigt und transformiert unstrukturierte Daten, kombiniert sie mit strukturierten Daten und kann Machine Learning-Modelle trainieren und bereitstellen. In dieser Architektur dient Databricks als zentrales Tool für die Erfassung, Verarbeitung und Bereitstellung von Daten und stellt eine einheitliche Umgebung für die Verwaltung des gesamten Datenlebenszyklus bereit.

  • Azure Databricks SQL Warehouse sind Computeressourcen, mit denen Sie Daten auf Databricks abfragen und untersuchen können. In dieser Architektur können Sie SQL-Endpunkte nutzen, um eine direkte Verbindung mit Ihren Daten aus Power BI herzustellen.

  • Azure Databricks Delta Live Tables ist ein deklaratives Framework zum Erstellen von zuverlässigen, wartungsfähigen und testbaren Datenverarbeitungspipelines. In dieser Architektur helfen Delta Live Tables Ihnen dabei, Transformationen zu definieren, um Aufgaben-Orchestrierung, Clusterverwaltung, Überwachung, Datenqualität und Fehlerbehandlung in Databricks durchzuführen und zu verwalten.

  • Microsoft Fabric ist eine End-to-End-Analyse- und Datenplattform für Unternehmen, die eine einheitliche Lösung benötigen. Die Plattform bietet Dienste wie Data Engineering, Data Factory, Data Science, Real-Time Analytics, Data Warehouse und Datenbanken an. In dieser Architektur spiegeln wir Unity Catalog-Tabellen in Fabric und verwenden Direct Lake in Power BI für eine bessere Leistung.

  • Data Factory in Microsoft Fabric ermöglicht Ihnen eine moderne Datenintegrationserfahrung, um Daten aus einer vielzahl von Datenquellen in Fabric aufzunehmen, vorzubereiten und zu transformieren. In dieser Architektur nutzen wir integrierte Connectors für die schnelle Aufnahme in ADLS oder OneLake, bei denen Databricks die Batchdaten später abrufen und weiter transformieren.

  • Event Hubs ist eine vollständig verwaltete Big Data Streaming-Plattform. Als Plattform as a Service (PaaS) bietet es Ereigniseinnahmefunktionen. In dieser Architektur wird Event Hubs zum Streamen von Daten verwendet, mit denen Databricks mithilfe von Spark Streaming oder Delta Live Tables eine Verbindung herstellen und verarbeiten kann.

  • Data Lake Storage Gen2 ist ein skalierbarer und sicherer Data Lake für hochleistungsfähige Analysen. Es verarbeitet mehrere Petabyte-Daten und unterstützt Hunderte von Gigabit-Durchsatz. ADLS kann strukturierte, halbstrukturierte und unstrukturierte Daten speichern. In dieser Architektur verwenden wir ADLS zum Speichern von Batch- und Streamingdaten.

  • Machine Learning ist eine cloudbasierte Umgebung, mit der Sie Predictive-Analytics-Lösungen erstellen, bereitstellen und verwalten können. Mit diesen Modellen können Sie Verhalten, Ergebnisse und Trends prognostizieren. In dieser Architektur kann AML Daten nutzen, die von Databricks für Schulungen und Ableitungsmodelle transformiert wurden.

  • AKS ist ein hochverfügbarer, sicherer und vollständig verwalteter Kubernetes-Dienst. AKS erleichtert das Bereitstellen und Verwalten containerisierter Anwendungen. In dieser Architektur wird AKS verwendet, um Machine Learning-Modelle in einer containerisierten Umgebung für skalierbare Ableitungen zu hosten.

  • Delta Lake ist eine Speicherebene, die ein offenes Dateiformat verwendet. Diese Ebene wird auf Cloudspeicher wie Data Lake Storage Gen2 ausgeführt. Delta Lake unterstützt Datenversionsierung, Rollback und Transaktionen zum Aktualisieren, Löschen und Zusammenführen von Daten. In dieser Architektur funktioniert Delta als primäres Dateiformat zum Schreiben und Lesen von Daten aus ADLS.

  • MLflow ist eine Open-Source-Plattform für die Verwaltung des Machine Learning-Lebenszyklus. Seine Komponenten überwachen Machine-Learning-Modelle während des Trainings und der Ausführung. In dieser Architektur, ähnlich wie amL, können Sie MLflow in Databricks nutzen, um Ihren ML-Lebenszyklus zu verwalten, einschließlich Schulungen und Ableitungen mithilfe der Unity-Katalogdaten, die Sie soeben in Databricks transformiert haben.

Berichts- und Steuerungskomponenten

  • Databricks Unity Catalog bietet zentrale Zugriffssteuerungs-, Überwachungs-, Linien- und Datenermittlungsfunktionen in Azure Databricks-Arbeitsbereichen. In dieser Architektur funktioniert Unity Catalog als primäres Tool in Databricks, um den Datenzugriff zu verwalten und zu sichern.

  • Power BI ist eine Sammlung von Softwarediensten und Apps. Diese Dienste erstellen Berichte, die nicht verbundene Datenquellen verbinden und visualisieren, und geben diese frei. Zusammen mit Azure Databricks kann Power BI Ursachenermittlung und Rohdatenanalyse bieten. In dieser Architektur wird Power BI zum Erstellen von Dashboards und Berichten verwendet, die Einblicke in die von Databricks und Fabric verarbeiteten Daten bieten.

  • Microsoft Purview verwaltet lokale, Multicloud- und SaaS-Daten (Software-as-a-Service). Dieser Governancedienst verwaltet Datenlandschaftszuordnungen. Zu den Features gehören die automatisierte Datenermittlung, die Klassifizierung vertraulicher Daten und die Datenherkunft. In dieser Architektur wird Purview verwendet, um in Unity Catalog, Fabric, Power BI und ADLS erfasste Daten zu scannen und nachzuverfolgen.

  • Azure DevOps ist eine DevOps-Orchestrierungsplattform. Dieser SaaS stellt Tools und Umgebungen zum Erstellen, Bereitstellen und Zusammenarbeiten an Anwendungen bereit. In dieser Architektur wird Azure DevOps zum Automatisieren der Bereitstellung der Azure-Infrastruktur verwendet. Darüber hinaus könnten Sie GitHub für automatisierungs- und versionskontrolle des Databricks-Codes nutzen, um die Zusammenarbeit, das Nachverfolgen von Änderungen und die Integration in CI/CD-Pipelines zu verbessern.

  • Azure Key Vault speichert und steuert den Zugriff auf Geheimnisse wie Token, Kennwörter und API-Schlüssel. Key Vault dient außerdem dem Erstellen und Steuern von Verschlüsselungsschlüsseln sowie dem Verwalten von Sicherheitszertifikaten. In dieser Architecure wird AKV verwendet, um SAS-Schlüssel aus ADLS zu speichern. Diese Schlüssel werden dann in Databricks und anderen Diensten für die Authentifizierung verwendet.

  • Microsoft Entra ID stellt cloudbasierte Identitäts- und Zugriffsverwaltungsdienste bereit. Diese Features bieten Benutzern die Möglichkeit, sich anzumelden und auf Ressourcen zuzugreifen. In dieser Architecure wird Entra ID zum Authentifizieren und Autorisieren von Benutzern und Diensten in Azure verwendet.

  • SCIM- ermöglicht Es Ihnen, die Bereitstellung für das Azure Databricks-Konto mithilfe der Microsoft Entra-ID einzurichten. In dieser Architektur wird sie zum Verwalten von Benutzern verwendet, die auf Databricks-Arbeitsbereiche zugreifen.

  • Azure Monitor erfasst und analysiert Daten zu Umgebungen und Azure-Ressourcen. Diese Daten umfassen App-Telemetriedaten, z. B. Leistungsmetriken und Aktivitätsprotokolle. In dieser Architektur wird Azure Monitor zum Überwachen des Zustands von Computeressourcen in Databricks und Azure Machine Learning sowie anderen Komponenten verwendet, die Protokolle an Azure Monitor senden.

  • Microsoft Cost Management verwaltet Cloudausgaben. Mithilfe von Budgets und Empfehlungen organisiert dieser Dienst Ausgaben und zeigt, wie Kosten reduziert werden können. In dieser Architektur wird Microsoft Cost Management verwendet, um die Kosten der gesamten Lösung zu überwachen und zu steuern.

Szenariodetails

Moderne Datenarchitekturen erfüllen folgende Kriterien:

  • Vereinheitlichen von Daten-, Analyse- und KI-Workloads.
  • Effiziente und zuverlässige Ausführung in beliebigem Umfang.
  • Bereitstellung von Einblicken durch Analyse-Dashboards, operative Berichte oder erweiterte Analysen.

Diese Lösung beschreibt eine moderne Datenarchitektur, die diese Ziele erreicht. Azure Databricks bildet den Kern der Lösung. Diese Plattform funktioniert nahtlos mit anderen Diensten. Zusammen stellen diese Dienste eine Lösung mit den folgenden Qualitäten bereit:

  • Einfach: Einheitliche Analysen, Data Science und maschinelles Lernen vereinfachen die Datenarchitektur.
  • Offen: Die Lösung unterstützt Open-Source-Code, offene Standards und offene Frameworks. Sie funktioniert auch mit gängigen integrierten Entwicklungsumgebungen (IDEs), Bibliotheken und Programmiersprachen. Durch native Konnektoren und APIs arbeitet die Lösung auch mit einer breiten Palette anderer Dienste zusammen.
  • Kollaborativ: Dateningenieure, Datenwissenschaftler und Analysten arbeiten bei dieser Lösung zusammen. Sie können kollaborative Notebooks, IDEs, Dashboards und andere Tools verwenden, um auf gemeinsame zugrunde liegende Daten zuzugreifen und diese zu analysieren.

Mögliche Anwendungsfälle

Das System, das die Swiss Re Group für ihren Geschäftsbereich „Schaden- und Unfall-Rückversicherung“ aufgebaut hat, inspirierten diese Lösung. Neben der Versicherungsbranche kann auch jeder Bereich, der mit Big Data oder maschinellem Lernen arbeitet, von dieser Lösung profitieren. Beispiele:

  • Der Energiesektor
  • Einzelhandel und E-Commerce
  • Bank- und Finanzwesen
  • Medizin und Gesundheitswesen

Nächste Schritte

Informationen zu verwandten Lösungen finden Sie hier: