URI の概要

完了

データは、ローカル デバイス、またはクラウドの任意の場所に格納することができます。 データの格納場所にかかわらず、機械学習モデルをトレーニングするときにはデータにアクセスする必要があります。 Azure Machine Learning でデータを検索してアクセスするには、Uniform Resource Identifier (URI) を使用できます。

URI について

URI はデータの場所を指します。 Azure Machine Learning からデータに接続するには、URI の前に適切なプロトコルを付ける必要があります。 Azure Machine Learning のコンテキストでデータを使う場合、次の 3 つの一般的なプロトコルがあります。

Azure Machine Learning で外部データ ソースへの接続に使用するさまざまな種類のプロトコルの図。

  • http(s): Azure Blob ストレージや一般公開されている http(s) の場所にある、公開または非公開のデータ ストアに使います。
  • abfs(s): Azure Data Lake ストレージ Gen 2 内のデータ ストアに使います。
  • azureml: データストア内の格納データに使います。

たとえば、Azure 内に Azure Blob ストレージを作成するとします。 データを格納するために、training-data というコンテナーを作成します。 コンテナー内にフォルダー datastore-path を作成します。 そのフォルダー内に CSV ファイル diabetes.csv を格納します。

Azure Blob ストレージ内の格納データのスクリーンショット。

Azure Machine Learning ワークスペースからデータにアクセスする場合は、フォルダーまたはファイルへのパスを直接使用できます。 フォルダーまたはファイルに直接接続する場合は、http(s) プロトコルを使用できます。 コンテナーがプライベートに設定されている場合、データにアクセスするには、何らかの認証 (Shared Access Signature (SAS) など) を用意する必要があります。

Azure Machine Learning でデータストアを作成する場合は、ワークスペースに接続と認証の情報を格納します。 こうすると、コンテナー内のデータにアクセスするために azureml プロトコルを使用できます。

ヒント

データストアは、Azure 上の既存のストレージ アカウントへの参照です。 そのため、データストア内の格納データを参照する場合、Azure Blob ストレージまたは Azure Data Lake ストレージ内の格納データを参照することがあります。 ただし、データストアを参照する場合は、データストアに格納されている接続情報が Azure Machine Learning に使われるため、認証を受ける必要はありません。

認証情報のような機密性の高いデータは、コードに含めないことがベスト プラクティスと考えられています。 そのため、Azure Machine Learning では、可能な限りデータストアとデータ資産を使うようにします。 ただし、ノートブックでの実験中は、不要なオーバーヘッドを避けるために、保存場所に直接接続することができます。