HDInsight クラスターの作成

完了

HDInsight クラスターを作成するには、簡単なユーザー インターフェイスの Azure portal を使用する方法から、自動化されたデプロイに利用できるスクリプト セットアップまで、さまざまな方法があります。 次の表は、HDInsight クラスターのセットアップに使用できるいろいろな方法を示しています。

クラスターの作成に使用 Web ブラウザー コマンド ライン REST API SDK
Azure portal
Azure Data Factory
Azure CLI
Azure PowerShell
cURL
.NET SDK
Azure Resource Manager テンプレート

HDInsight のすべてのセットアップで、以下を含む基本情報が必要です。

[基本] タブ

プロジェクトの詳細

サブスクリプション

HDInsight の課金と管理に使用する Azure サブスクリプションを定義します。

リソース グループ名

リソース グループは、同じアプリケーションまたはアプリケーションのライフ サイクルに一般的に関連する Azure のテクノロジとサービスを論理的にグループ化したものです。 複数のサービスを同じリソース グループにグループ化すると、管理のメンテナンスが容易になります。

A screenshot of the basic tab in the Create HDInsight Cluster screen in the Azure portal

クラスターの詳細

クラスター名

HDInsight クラスター名には次の制限があります。

  • 使用できる文字: a-z、0-9、A-Z
  • 最大長:59
  • 予約済みの名前: apps
  • クラスター名の範囲はすべての Azure が対象で、すべてのサブスクリプションに適用されます。 そのため、クラスター名は全世界で一意である必要があります。
  • 先頭の 6 文字は VNET 内で一意である必要があります

場所

クラスターの種類を格納する場所を指定します。 場所が定義されていない場合、クラスターは既定のストレージと同じ場所に併置されます。 待機時間を短縮するために、ユーザーにできるだけ近い場所にする必要があります。

クラスターの種類

リソースのクラスターでプロビジョニングされるテクノロジ スタックを定義します。 保有するデータの種類とシナリオで必要な種類の処理に基づいて、クラスターの種類を選択します。 次の表に、使用可能なクラスターの種類を示します。  

クラスターの種類 説明
Apache Hadoop HDFS とシンプルな MapReduce プログラミング モデルを使用して、バッチ データを処理および分析するフレームワーク。 
Apache Spark ビッグ データ分析アプリケーションのパフォーマンスを向上させるメモリ内処理をサポートする、オープンソースの並列処理フレームワーク。
HBase Hadoop 上に構築された NoSQL データベース。大量の非構造化データおよび半構造化データ (数十億行 x 数百万列の可能性もある) へのランダム アクセスと厳密な整合性が提供されます。 
Apache Interactive Query 対話型で高速な Hive クエリのメモリ内キャッシュ。 
Apache Kafka ストリーミング データ パイプラインおよびアプリケーションを構築するために使用されるオープンソースのプラットフォームです。 Kafka には、データ ストリームの発行とサブスクライブを可能にするメッセージ キュー機能も用意されています。

バージョン

このクラスターの HDInsight のバージョンを定義します。 HDInsight 4.0 が最新バージョンで、最新のフレームワークがクラスターにプロビジョニングされています。

クラスターの資格情報

HDInsight クラスターには、クラスターの作成時に 2 つのユーザー アカウントを構成できます。

クラスターのログインとパスワード

既定のユーザー名は admin です。Azure portal の基本構成を使用します。 "クラスター ユーザー" と呼ばれることもあります。

SSH ユーザー名とパスワード

SSH を使用してクラスターに接続する際に使用します。

注意

Enterprise セキュリティ パッケージでは、HDInsight を Active Directory と Apache Ranger と統合することができます。 Enterprise セキュリティ パッケージを使用して、複数のユーザーを作成できます。

[ストレージ] タブ

HDInsight クラスターでは、[ストレージ] 画面に表示される次のストレージ オプションを使用できます。

  • Azure Data Lake Storage Gen2
  • Azure Data Lake Storage Gen1
  • Azure Storage General Purpose v2
  • Azure Storage General Purpose v1
  • Azure Storage ブロック BLOB (セカンダリ ストレージとしてのみサポート)

[ストレージ] 画面では、プライマリ ストレージ アカウントと既定のコンテナーを定義できます。 また、追加の Azure Storage をクラスターにリンクすることもできます。 metastore 設定を使用すると、クラスターが削除された後に、Hive テーブルを格納するための外部 SQL データベースを定義でき、外部ストアにメタデータを格納することで Oozie のパフォーマンスを向上させることができます。

A screenshot of the storage tab in the Create HDInsight Cluster screen in the Azure portal

セキュリティとネットワーク

クラスターの種類が Hadoop、Spark、HBase、Kafka、および対話型クエリの場合は、Enterprise セキュリティ パッケージを有効にすることができます。 このパッケージには、Apache Ranger を使用し、Microsoft Entra ID と統合することで、より安全なクラスター セットアップを行うオプションが用意されています。

A screenshot of the Security and Networking tab in the Create HDInsight Cluster screen in the Azure portal

また、VNet 内に HDInsight クラスターをデプロイすることを常にお勧めします。この画面で仮想ネットワークを定義して設定することができます。 複数の種類の HDInsight クラスターにまたがるテクノロジがソリューションに必要な場合は、Azure 仮想ネットワークで、必要な種類のクラスターを接続できます。 この構成により、クラスターと、それにデプロイするすべてのコードで相互に直接通信できるようになります。

構成と価格

このページを使用して、クラスターのサイズとパフォーマンスを構成し、推定コスト情報を表示できます。 この画面では、ヘッド (マスター) ノードとワーカー ノードにも使用される仮想マシンを定義できます。

A screenshot of the Configuration and Pricing tab in the Create HDInsight Cluster screen in the Azure portal