Spark クラスターの作成

3 分

Azure Databricks ポータルを使って、Azure Databricks ワークスペースに 1 つ以上のクラスターを作成できます。

Screenshot of the Create Cluster interface in the Azure Databricks portal.

クラスターを作成するときに、次のような構成設定を指定できます。

クラスターの名前。
"クラスターのモード"。次のいずれかを指定できます。
- "標準": 複数のワーカーノードを必要とするシングルユーザーのワークロードに適しています。
- "高コンカレンシー": 複数のユーザーがクラスターを同時に使うワークロードに適しています。
- "単一ノード": 必要なワーカーノードが 1 つだけの小規模なワークロードまたはテストに適しています。
クラスターで使われる Databricks Runtime のバージョン。これは、Spark と、Python、Scala、インストールされる他のコンポーネントなどの個々のコンポーネントのバージョンを示します。
クラスターのワーカーノードに使われる仮想マシン (VM) の種類。
クラスターのワーカーノードの最小数と最大数。
クラスターのドライバーノードに使われる VM の種類。
クラスターがクラスターのサイズを動的に変更するための "自動スケーリング" をサポートするかどうか。
クラスターが自動的にシャットダウンされるまでアイドル状態になっていることのできる時間。

Azure がクラスターリソースを管理する方法

Azure Databricks ワークスペースを作成すると、"Databricks アプライアンス" が Azure リソースとしてお客様のサブスクリプションにデプロイされます。ワークスペース内にクラスターを作成するときは、ドライバーノードとワーカーノードの両方に使う仮想マシン (VM) の種類とサイズおよびその他の構成オプションを指定しますが、クラスターの他のすべての側面は Azure Databricks によって管理されます。

Databricks アプライアンスは、お客様のサブスクリプション内の管理対象リソースグループとして Azure にデプロイされます。このリソースグループには、クラスターのドライバーとワーカーの VM と、他の必要なリソース (仮想ネットワーク、セキュリティグループ、ストレージアカウントなど) が含まれます。クラスターのメタデータ (スケジュールされたジョブなど) はすべて Azure データベースに格納され、geo レプリケーションによるフォールトトレランスが確保されます。

内部的には、ハイパフォーマンスの Azure 仮想マシンと高速ネットワーク上で、最新世代の Azure ハードウェア (Dv3 VM) と 100 us の待ち時間を実現できる NvMe SSD で動作するコンテナーを介して、Azure Kubernetes Service (AKS) を使って Azure Databricks のコントロールプレーンとデータプレーンが実行されます。 Azure Databricks は、Azure のこれらの機能を利用して、Spark のパフォーマンスをさらに向上させます。管理対象リソースグループ内のサービスの準備ができたら、Azure Databricks UI と、自動スケーリングや自動終了などの機能を使って、Databricks クラスターを管理できます。

Diagram of Azure Databricks architecture.

Note

また、クラスターの起動時間を短縮するため、アイドルノードの "プール" にクラスターをアタッチすることもできます。詳しくは、Azure Databricks のドキュメントの「プール」をご覧ください。

続行

Azure がクラスター リソースを管理する方法

フィードバック

Azure がクラスターリソースを管理する方法