Azure Databricks構成の概要

[アーティクル]
11/12/2024

Azure Databricksは、データエンジニアリングとデータサイエンスの最高の機能を組み合わせたクラウドベースのプラットフォームです。ビッグデータ処理用の高速でスケーラブルなオープンソースフレームワークである Apache Sparkを使用して、データパイプラインを構築、管理、分析できます。 Azure Databricksは、データサイエンティストとエンジニアが機械学習や人工知能プロジェクトで共同作業するための共同作業スペースも提供します。

政府機関または公共部門の業界で働いている場合、このリファレンスアーキテクチャドキュメントは、主権ランディングゾーンでAzure Databricksを使用するか、主権ベースラインポリシーイニシアチブを適用したAzureランディングゾーンデプロイメントを使用するための独自のガイダンスを提供します。

Azure Databricks製品ドキュメントには、さまざまな記事に関する詳細な情報が記載されています。このドキュメントは、Azure Databricks環境を構成するための主要な概念とオプションに関する厳選された推奨事項を提供することで、ドキュメントを補完します。

Azure Databricksの主な機能

Azure Databricksには豊富な機能が備わっていますが、このリファレンスアーキテクチャではインフラストラクチャ要素に重点を置いています。 Azure Databricksは以下を提供します:

インタラクティブノートブック: ノートブックを使用して、Python、Scala、SQL、またはRでコードを記述し、チャートとグラフで結果を視覚化します。共有でチームメンバーとノートブックにコメントし、GitHubなどの一般的なツールと統合します Azure DevOps。
コンピューティングオプション: Azure Databricksは、データエンジニアリング、データサイエンス、データ分析のワークロードをサポートするさまざまなコンピューティングオプションを提供します。これらのオプションには、ノートブックとジョブ用のオンデマンドでスケーラブルなサーバーレスコンピューティング、多目的分析と自動化ジョブ用のプロビジョニングされたコンピューティング、SQLコマンドを実行するためのSQLウェアハウスが含まれます。インスタンスプールは、アイドル状態ですぐに使用できるインスタンスを提供することで、起動時間と自動スケーリング時間を短縮し、さまざまなデータ処理シナリオ全体で効率を高めます。
データ統合: Azure Blobストレージ、 Azure Data Lake Storage、Azure SQLデータベース、 Azure Synapse Analytics、Azure Cosmos DB など、さまざまなデータソースや送信先に簡単に接続できます。 ACIDトランザクションとスキーマの適用をサポートする、信頼性が高くパフォーマンスの高いデータレイクソリューションであるDelta Lakeを使用します。
機械学習: TensorFlow、PyTorch、Scikit-learn、XGBoostなどの一般的なフレームワークを使用して、機械学習モデルを構築、トレーニング、デプロイします。機械学習ライフサイクルを管理するためのオープンソースプラットフォームであるMLflowを使用して、実験を追跡し、メトリックを記録し、モデルをデプロイします。
エンタープライズセキュリティ: ロールベースのアクセス制御、暗号化、監査、コンプライアンスなどの機能を使用して、データに安全にアクセスし、処理します。 IDとデータ保護のために、Azure Databricksを Microsoft Entra ID、Azure Key Vault、Azure Privateリンクと統合します。
データガバナンスと共有: Unity Catalogは、外部共有用のDelta Sharingの管理バージョンと、データレイクハウス用の統合データガバナンスモデルを提供することで、組織内でのデータ共有を簡素化し、クラウドでの分析を保護します。

高レベルのDatabricksアーキテクチャ

Azure Databricksは、 コントロールプレーン と コンピューティングプレーンから動作します。リファレンスアーキテクチャでは、これらの各コントロールプレーンの構成オプションが推奨されています。次の図は、Azure Databricksアーキテクチャ全体を示しています。

コントロールプレーン

コントロールプレーンは、クラスターとジョブのライフサイクル、およびユーザーとデータアクセスの認証と承認を管理するAzure Databricksのレイヤーです。コントロールプレーンには、Azure Databricksアカウント内のAzure Databricksによって管理されるバックエンドサービスが含まれます。 Webアプリケーションはコントロールプレーンにあります。

コントロールプレーンは、Azure Databricksが所有するAzureサブスクリプションで実行され、安全なAPIを介してクラシックコンピューティングプレーンおよびサーバーレスコンピューティングプレーンと通信します。コントロールプレーンは、ユーザーがAzure Databricksと対話するためのWebインターフェイスとREST APIも提供します。

計算プレーン

コンピューティングプレーンは、データが処理される場所です。コンピューティングプレーンには、サーバーレスとクラシックの2種類があります。サーバーレスコンピューティングプレーンは即時かつ柔軟なリソースを提供しますが、従来のコンピューティングプレーンは事前にプロビジョニングされたインフラストラクチャに依存します。

サーバーレスコンピューティングプレーン

サーバーレスコンピューティングは、アドホッククエリ、ノートブック、および短期間のワークロードに最適です。たとえば、サーバーレスコンピューティングを使用して、ノートブックでSQLコマンドを実行したり、軽量ジョブを実行したりできます。サーバーレスコンピューティングプレーンでは、リソースはAzure Databricksアカウント内のコンピューティングレイヤーで実行されます。

Azure Databricksは、ワークスペースのクラシックコンピューティングプレーンと同じAzureリージョンにサーバーレスコンピューティングプレーンを作成します。これは、Databricksのアカウントにあるサーバーのプールを操作し、数秒以内にユーザーに割り当てることができるKubernetesコンテナーを実行します。詳細については、 Databricks Serverless SQLの発表: SQLワークロード向けのインスタント、マネージド、セキュリティ保護された、本番環境対応のプラットフォーム - The Databricks Blog。

ユーザーがレポートやクエリを同時に実行して同時負荷を処理する場合、コンピューティングプラットフォームは、より多くのサーバーを使用してクラスターを迅速に拡張します。 Databricksはサーバーの全体的な構成を管理し、必要に応じてパッチ適用とアップグレードを自動的に実行します。サーバーレスコンピューティングは、使用量 (クエリ実行またはジョブ実行ごとなど) ごとに課金されます。

各サーバーは安全な構成で実行され、すべての処理は、ランタイムをホストするKubernetesコンテナ、コンテナをホストするVM、ワークスペースの仮想ネットワークという3つの分離レイヤーによって保護されます。各レイヤーは1つのワークスペースに分離されており、共有やネットワーク間のトラフィックは許可されません。

コンテナは強化された構成を使用し、VMはシャットダウンされて再利用されず、ネットワークトラフィックは同じクラスター内のノードに制限されます。すべてのコンピューティングは一時的であり、そのワークロード専用であり、ワークロードが完了すると安全に消去されます。

ユーザー、コントロールプレーン、コンピューティングプレーン、クラウドサービス間のすべてのトラフィックは、パブリックインターネットではなく、Azureのグローバルネットワーク経由でルーティングされます。サーバーレスSQLウェアハウスのサーバーレスコンピューティングプレーンは、顧客が構成可能なバックエンドAzureプライベートリンク接続を使用しません。 Azure Databricksコントロールプレーンは、コントロールプレーンのIPアドレスに対してのみIPアクセスが許可されたmTLSを使用してサーバーレスコンピューティングプレーンに接続します。

接続されているすべてのストレージは業界標準のAES-256暗号化によって保護されており、ユーザー、コントロールプレーン、コンピューティングプレーン、クラウドサービス間のすべてのトラフィックは少なくともTLS 1.2で暗号化されています。サーバーレスSQLウェアハウスでは、マネージドディスクに顧客管理キーは使用されません。

ワークロードには、そのワークロードの範囲外のシステムに対する権限や資格情報は存在せず、データへのアクセスは、有効期間が短い (1時間) トークンを介して行われます。これらのトークンは、それぞれの特定のワークロードに安全に渡されます。

2024年6月現在、Azure Confidential Computingはサーバーレスコンピューティングではサポートされていませんが、Azureサーバーレスコンピューティングの分離図に示されているように、ワークロードは複数の分離レイヤーによって保護されています。

詳細については、サーバーレスコンピューティングでワークロードを安全にデプロイ。

クラシックコンピューティングプレーン

クラシックコンピューティングプレーンは、長時間実行されるジョブ、実稼働ワークロード、および一貫したリソースのニーズに適しています。たとえば、プロビジョニングされたコンピューティングをETLパイプライン、機械学習トレーニング、データエンジニアリングタスクに使用できます。

従来のコンピューティングプレーンは、独自のAzureサブスクリプションで実行されるため、自然な分離が実現します。 Azureサブスクリプション内の各ワークスペースの仮想ネットワーク内に、新しいコンピューティングリソースが作成および構成されます。コンピューティングリソースは、明示的に変更されるまで一定のままであり、インスタンスタイプと期間に基づいて課金されます。クラスターはマネージドディスクにカスタマー管理キーを使用でき、スポットインスタンスがサポートされます。

Azure Databricks管理者は、クラスターポリシーを使用して、使用可能なインスタンスの種類、Databricksのバージョン、インスタンスのサイズなど、クラスターのさまざまな側面を制御できます。

Databricks仮想ネットワークインジェクションは、Azure Databricksクラシックコンピューティングプレーンリソースを独自の仮想ネットワークにデプロイできる機能です。この機能により、サービスエンドポイントまたはプライベートエンドポイントを使用して、より安全な方法でDatabricksを他のAzureサービスに接続Azureできるようになります。仮想ネットワークピアリングを使用して、Azure Databricksワークスペースが実行している仮想ネットワークを別のAzure仮想ネットワークとピアリングすることもできます。

次の方法で共有