編集

次の方法で共有


Azure Databricks を使用した最新の分析アーキテクチャ

Azure Databricks
Microsoft Fabric
Power BI
Azure Data Lake Storage

ソリューションのアイデア

この記事ではソリューションのアイデアについて説明します。 クラウド アーキテクトはこのガイダンスを使用すると、このアーキテクチャの一般的な実装の主要コンポーネントを視覚化しやすくなります。 ワークロードの特定の要件に適合する、適切に設計されたソリューションを設計するための出発点として、この記事を使用してください。

このソリューションでは、最新のデータ アーキテクチャの概要を説明します。 Azure Databricks は、このソリューションの中核となります。 このプラットフォームは、Azure Data Lake Storage Gen2、Microsoft Fabric、Power BI などの他のサービスとシームレスに連携します。

Apache® および Apache Spark™ は、Apache Software Foundation の米国およびその他の国における登録商標です。 これらのマークを使用することが、Apache Software Foundation による保証を意味するものではありません。

Architecture

最新のデータ アーキテクチャを使用してデータを収集、処理、分析、視覚化する方法を示すアーキテクチャの図。

このアーキテクチャの Visio ファイル をダウンロードします。

データフロー

  1. Azure Databricks は、Delta Live Tables を使用して Azure Event Hubs から生ストリーミング データを取り込みます。

  2. Fabric Data Factory は、生のバッチ データを Data Lake Storage Gen2 に読み込みます。

  3. データ ストレージの場合:

    • Data Lake Storage Gen2 には、構造化、非構造化、半構造化など、すべての種類のデータが格納されます。 バッチとストリーミングのデータも格納されます。

    • Delta Lake により、データ レイクのキュレーションされたレイヤーが形成されます。 これによって、絞り込まれたデータがオープンソース形式で格納されます。

    • Azure Databricks は、データをレイヤーに編成する メダル式アーキテクチャ と協調して機能します。

      • ブロンズ: 生データを保持します。
      • シルバー: クリーニングされ、フィルター処理されたデータが含まれます。
      • ゴールド: ビジネス分析に役立つ集計データを格納します。
  4. 分析プラットフォームにより、さまざまなバッチとストリーミングのソースからデータが取り込まれます。 データ科学者は、このデータを次のタスクに使用します。

    • データの準備。
    • データの探索。
    • モデルの準備。
    • モデルのトレーニング。

    MLflow により、データ サイエンス コードの実行におけるパラメーター、メトリック、モデルの追跡が管理されます。 柔軟性に富んだコーディングの方法が用意されています。

    • 使用可能なコードは SQL、Python、R、Scala です。
    • 事前にインストールおよび最適化されている、Koalas、Pandas、scikit-learn などの一般的なオープンソース ライブラリとフレームワークをコードで使用できます。
    • 実務者は、単一ノードおよびマルチノードのコンピューティング オプションを使用して、パフォーマンスとコストを最適化できます。
  5. 次のいくつかの形式で機械学習モデルを利用できます。

    • Azure Databricks により、モデルに関する情報が MLflow モデル レジストリに格納されます。 このレジストリを使用すると、バッチ、ストリーミング、REST API を通じてモデルを利用できるようになります。
    • また、このソリューションでは Azure Machine Learning Web サービスまたは Azure Kubernetes Service (AKS) にモデルをデプロイすることもできます。
  6. 一貫性を確保するため、データを処理するサービスが、基になる単一のデータ ソースに接続されます。 たとえば、ユーザーは Azure Databricks SQL Warehouse を使用してデータ レイクに対して SQL クエリを実行できます。 このサービスは以下のことを行います。

  7. ユーザーは、Databricks Unity カタログから Fabric にゴールド データ セットをミラーリングできます。 Fabric で Databricks ミラーリングを すると、ユーザーはデータ移動やデータ レプリケーションなしで簡単に統合できます。

  8. Power BI により、統合データ プラットフォームから分析と履歴のレポートとダッシュボードが生成されます。 Azure Databricks で作業するとき、このサービスは次の機能を使用します。

    • 基になるデータを視覚化するための、 組み込みの Azure Databricks コネクタ
    • 最適化された Java Database Connectivity (JDBC) および Open Database Connectivity (ODBC) ドライバー。
    • Fabric の Databricks ミラーリングを使用すると、Direct Lake 活用して、PBI セマンティック モデルを読み込んでパフォーマンスを向上させることができます。
  9. このソリューションでは、コラボレーション、パフォーマンス、信頼性、ガバナンス、セキュリティのために Unity カタログと Azure サービスを使用します。

    • Databricks Unity Catalog は、Azure Databricks ワークスペース全体で一元的なアクセス制御、監査、系列、およびデータ検出機能を提供します。

    • Microsoft Purview では、データ資産全体でのデータ検出サービス、機密データ分類、ガバナンス分析情報が提供されます。

    • Azure DevOps では、継続的インテグレーションと継続的配置 (CI/CD) などの統合バージョン管理機能が提供されます。

    • Azure Key Vault では、シークレット、キー、証明書が安全に管理されます。

    • Microsoft Entra ID と SCIM プロビジョニングは、Azure Databricks のユーザーとグループにシングル サインオン (SSO) を提供します。 Azure Databricks では、次のタスクのために Microsoft Entra ID による自動化されたユーザー プロビジョニングがサポートされています。

      • 新しいユーザーとグループの作成。
      • 各ユーザーにアクセス レベルを割り当てる。
      • ユーザーを削除し、そのアクセスを拒否する。
    • Azure Monitor では、Azure リソースのテレメトリの収集と分析が行われます。 このサービスで問題を事前に特定することで、パフォーマンスと信頼性を最大限に高めます。

    • Microsoft Cost Management は、Azure ワークロードに財務ガバナンス サービスを提供します。

コンポーネント

このソリューションでは、次のコンポーネントが使用されます。

コア コンポーネント

  • Azure Databricks は、Spark クラスターを使用して大規模なデータ ストリームを処理するデータ分析プラットフォームです。 非構造化データのクレンジングと変換、構造化データとの組み合わせ、機械学習モデルのトレーニングとデプロイを行うことができます。 このアーキテクチャでは、Databricks はデータ インジェスト、処理、サービスの中心的なツールとして機能し、データ ライフサイクル全体を管理するための統一された環境を提供します。

  • Azure Databricks SQL Warehouse は、Databricks 上のデータのクエリと探索を行うコンピューティング リソースです。 このアーキテクチャでは、SQL エンドポイントを利用して Power BI からデータに直接接続できます。

  • Azure Databricks Delta Live Tables は、信頼性の高い保守可能でテスト可能なデータ処理パイプラインを構築するための宣言型フレームワークです。 このアーキテクチャでは、Delta Live Tables を使用すると、データに対して実行する変換を定義し、Databricks 内でタスク オーケストレーション、クラスター管理、監視、データ品質、エラー処理を管理できます。

  • Microsoft Fabric は、統合ソリューションを必要とする企業向けに設計されたエンドツーエンドの分析およびデータ プラットフォームです。 このプラットフォームは、データ エンジニアリング、Data Factory、データ サイエンス、Real-Time Analytics、Data Warehouse、データベースなどのサービスを提供します。 このアーキテクチャでは、Unity カタログ テーブルを Fabric にミラーリングし、Power BI で Direct Lake を使用してパフォーマンスを向上させます。

  • Microsoft Fabric の Data Factory を使用すると、Fabric の豊富なデータ ソースのセットからデータを取り込み、準備し、変換するための最新のデータ統合エクスペリエンスを利用できます。 このアーキテクチャでは、いくつかのデータ ソースへの組み込みコネクタを利用して、ADLS または OneLake にすばやく取り込みます。この場合、Databricks は後でバッチ データを取得してさらに変換します。

  • Event Hubs は、フル マネージドのビッグ データ ストリーミング プラットフォームです。 サービスとしてのプラットフォーム (PaaS) として、イベント インジェスト機能を提供します。 このアーキテクチャでは、Event Hubs はストリーミング データに使用され、Databricks は Spark ストリーミングまたは Delta Live Tables を使用して接続して処理できます。

  • Data Lake Storage Gen2 は、高パフォーマンス分析のためのスケーラブルで安全なデータ レイクです。 複数のペタバイト単位のデータを処理し、数百ギガビットのスループットをサポートします。 ADLS では、構造化データ、半構造化データ、非構造化データを格納できます。 このアーキテクチャでは、ADLS を使用してバッチ データとストリーミング データの両方を格納します。

  • Machine Learning は、予測分析ソリューションの構築、デプロイ、管理に役立つクラウドベースの環境です。 これらのモデルを使用すると、行動、結果、傾向を予測できます。 このアーキテクチャでは、AML は Databricks によって変換されたデータを利用して、モデルのトレーニングと推論を行うことができます。

  • AKS は、高可用性とセキュリティを備えたフル マネージド Kubernetes サービスです。 AKS により、コンテナ化されたアプリケーションのデプロイと管理が容易になります。 このアーキテクチャでは、AKS を利用して、スケーラブルな推論のためにコンテナー化された環境で機械学習モデルをホストします。

  • Delta Lake は、オープン ファイル形式を使用するストレージ レイヤーです。 このレイヤーは、Data Lake Storage Gen2 などのクラウド ストレージ上で実行されます。 Delta Lake では、データの更新、削除、マージのために、データのバージョン管理、ロールバック、トランザクションがサポートされています。 このアーキテクチャでは、Delta は ADLS からデータを書き込んで読み取るためのプライマリ ファイル形式として機能します。

  • MLflow は、機械学習のライフサイクルを管理するためのオープンソース プラットフォームです。 そのコンポーネントにより、トレーニング中および実行中に機械学習モデルが監視されます。 このアーキテクチャでは、AML と同様に、Databricks の MLflow を利用して、Databricks 内で変換した Unity カタログ データのトレーニングや推論など、ML ライフサイクルを管理できます。

レポートとコンポーネントの管理

  • Databricks Unity カタログ は、Azure Databricks ワークスペース全体で一元的なアクセス制御、監査、系列、およびデータ検出機能を提供します。 このアーキテクチャでは、Unity Catalog は Databricks 内の主要なツールとして機能し、データ アクセスを管理およびセキュリティで保護します。

  • Power BI は、ソフトウェア サービスとアプリのコレクションです。 これらのサービスを使用すると、関連のないデータ ソースを結び付けて視覚化するレポートを作成して共有できます。 Power BI と Azure Databricks を連携させると、根本原因の特定と生データの分析を実行できます。 このアーキテクチャでは、Power BI を使用して、Databricks と Fabric によって処理されるデータに関する分析情報を提供するダッシュボードとレポートを作成します。

  • Microsoft Purview では、オンプレミス、マルチクラウド、サービスとしてのソフトウェア (SaaS) データを管理できます。 このガバナンス サービスでは、データ全体のマップを保持します。 自動化されたデータ検出、機密データ分類、データ系列などの機能があります。 このアーキテクチャでは、Purview を使用して、Unity カタログ、ファブリック、Power BI、ADLS に取り込まれたデータをスキャンして追跡します。

  • Azure DevOps は、DevOps のオーケストレーション プラットフォームです。 この SaaS により、アプリケーションの構築とデプロイや、それを使った共同作業を行うツールと環境が提供されます。 このアーキテクチャでは、Azure DevOps を使用して Azure インフラストラクチャのデプロイを自動化します。 さらに、Databricks コードの自動化とバージョン管理のために GitHub を利用して、コラボレーションの向上、変更の追跡、CI/CD パイプラインとの統合を行うことができます。

  • Azure Key Vault は、トークン、パスワード、API キーなどのシークレットへのアクセスを格納および制御します。 また Key Vault は、暗号化キーを作成および制御し、セキュリティ証明書を管理します。 このアーキテクチャでは、AKV は ADLS からの SAS キーを格納するために使用されます。 これらのキーは、認証のために Databricks やその他のサービスで使用されます。

  • Microsoft Entra ID はクラウドベースの ID およびアクセス管理サービスを提供します。 これらの機能により、ユーザーはサインインしてリソースにアクセスするための方法を利用できます。 このアーキテクチャでは、Entra Id は、Azure でのユーザーとサービスの認証と承認に使用されます。

  • SCIM を使用すると、Microsoft Entra ID を使用して Azure Databricks アカウントへのプロビジョニングを設定できます。 このアーキテクチャでは、Databricks ワークスペースにアクセスするユーザーを管理するために使用されます。

  • Azure Monitor では、環境と Azure リソースに関するデータの収集と分析が行われます。 このデータには、パフォーマンス メトリックやアクティビティ ログなどのアプリ テレメトリが含まれます。 このアーキテクチャでは、Azure Monitor を使用して、Databricks と Azure Machine Learning のコンピューティング リソースの正常性と、Azure Monitor にログを送信するその他のコンポーネントを監視します。

  • Microsoft Cost Management はクラウド支出を管理します。 このサービスの予算と推奨事項を使用すると、支出を整理したり、コストを削減する方法を確認したりすることができます。 このアーキテクチャでは、Microsoft Cost Management を使用して、ソリューション全体のコストを監視および制御します。

シナリオの詳細

最新のデータ アーキテクチャは、次の条件を満たしています。

  • データ、分析、AI ワークロードを統合します。
  • あらゆる規模で効率的かつ確実に実行します。
  • 分析ダッシュボード、運用レポート、または高度な分析を通じて分析情報を提供します。

このソリューションは、これらの目標を達成する最新のデータ アーキテクチャの概要を示しています。 Azure Databricks は、このソリューションの中核となります。 このプラットフォームは、他のサービスとシームレスに連携します。 これらのサービスを組み合わせて使用し、次のような特性を備えたソリューションを提供します。

  • シンプル: 分析、データ サイエンス、機械学習の統合により、データ アーキテクチャが簡略化されます。
  • オープン: このソリューションでは、オープンソース コード、オープン標準、オープン フレームワークがサポートされています。 一般的な統合開発環境 (IDE)、ライブラリ、プログラミング言語にも対応しています。 ネイティブのコネクタと API により、このソリューションは他のさまざまなサービスとも連携できます。
  • コラボレーション: このソリューションでは、データ エンジニア、データ科学者、アナリストが連携します。 それぞれがコラボレーション用のノートブック、IDE、ダッシュボードなどのツールを使用して、基になる共通のデータにアクセスし、分析できます。

考えられるユース ケース

Swiss Re Group が不動産 & 損害再保険部門のために構築したシステムが、このソリューションのインスピレーションとなりました。 保険業界に加えて、ビッグ データや機械学習を扱う分野でも、このソリューションを活用できます。 たとえば、次のようになります。

  • エネルギー部門
  • 小売および e コマース
  • 銀行と金融
  • 医学と医療

次のステップ

関連するソリューションの詳細については、次の情報をご覧ください。