統合ベクトル化に Azure AI Foundry モデルカタログからの埋め込みモデルを使用する

[アーティクル]
12/23/2024

重要

この機能はパブリックプレビュー段階にあり、追加使用条件の下で提供されます。この機能は、2024-05-01-Preview REST API でサポートされます。

この記事では、Azure AI Foundry モデルカタログの埋め込みモデルにアクセスして、Azure AI 検索内でのインデックス作成時やクエリ内でベクトル変換を行う方法を学習します。

ワークフローには、モデルデプロイ手順が含まれています。モデルカタログには、Microsoft や他の企業による埋め込みモデルが含まれています。モデルのデプロイは、各プロバイダーの課金構造を通じて課金されます。

モデルのデプロイが完了すると、それをインデックス作成時の垂直統合で使用したり、クエリのための Azure AI Foundry ベクトライザーで使用したりできるようになります。

ヒント

データのインポートとベクトル化 ウィザードを使用して、Azure AI Foundry にデプロイされた埋め込みモデル用の AML スキルを含むスキルセットを生成します。入力、出力、マッピングの AML スキル定義はウィザードによって生成されるため、コードを記述する前にモデルを簡単にテストできます。

前提条件

Azure AI 検索 (任意のリージョンやレベル)。
Azure AI Foundry と Azure AI Foundry プロジェクト。

サポートされている埋め込みモデル

統合ベクトル化とデータのインポートとベクトル化ウィザードでは、モデルカタログの次の埋め込みモデルがサポートされています:

テキスト埋め込み用:

Cohere-embed-v3-english
Cohere-embed-v3-multilingual

画像埋め込み用:

Facebook-DinoV2-Image-Embeddings-ViT-Base
Facebook-DinoV2-Image-Embeddings-ViT-Giant

Azure AI Foundry モデルカタログの埋め込みモデルをデプロイする

Azure AI Foundry モデルカタログを開きます。まだない場合は、プロジェクトを作成します。
埋め込みモデルのみを表示するフィルターを適用します。 [Inference tasks]\(推論タスク\) で、[Embeddings]\(埋め込み\) を選択します。
サポートされているモデルを選択し、[デプロイ] を選択します。
既定値をそのまま使用するか、必要に応じて変更し、[デプロイ] を選択します。デプロイの詳細は、選択したモデルによって異なります。
プロビジョニング状態を監視して、モデルのデプロイが完了するまで待ちます。 "プロビジョニング"、"更新中"、"成功" の順に変わるはずです。状態の更新を表示するには、数分ごとに [更新] を選択する必要がある場合があります。
ターゲット URI、キー、モデル名を書き留めます。これらの値は、検索インデックス内のベクトル化定義と、インデックス作成中にモデルエンドポイントを呼び出すスキルセットに必要です。

必要に応じて、キー認証ではなくトークン認証を使用するようにエンドポイントを変更できます。トークン認証を有効にする場合、コピーする必要があるのは、URI とモデル名だけですが、モデルがどのリージョンにデプロイされているかも書き留めておくことも必要です。
これで、デプロイされたモデルを使用するように検索インデックスとインデクサーを構成できるようになりました。
- インデックス作成中にモデルを使用するには、統合ベクトル化を有効にする手順を参照してください。 AzureOpenAIEmbedding スキルではなく、必ず Azure Machine Learning (AML) スキルを使用してください。次のセクションでは、スキルの構成について説明します。
- モデルをクエリ時のベクトル化として使用するには、「ベクトル化を構成する」を参照してください。この手順では、必ず Azure AI Foundry モデルカタログベクトライザーを使用してください。

AML スキルペイロードのサンプル

Azure AI Foundry モデルカタログの埋め込みモデルをデプロイする場合は、Azure AI 検索内のインデックス作成ワークロード用の AML スキルを使用してそれらに接続します。

このセクションでは、AML スキルの定義とインデックスマッピングについて説明します。これには、対応するデプロイされたエンドポイントで動作するように既に構成されているサンプルペイロードが含まれています。これらのペイロードのしくみの技術的な詳細については、スキルコンテキストと入力注釈言語に関するページを参照してください。

Facebook 埋め込みモデル
Cohere 埋め込みモデル

この AML スキルペイロードは、Azure AI Foundry の以下の画像埋め込みモデルで動作します。

Facebook-DinoV2-Image-Embeddings-ViT-Base
Facebook-DinoV2-Image-Embeddings-ViT-Giant

画像は、組み込みの画像抽出を有効にして作成された /document/normalized_images/* パスから取得されることを前提としています。画像が別のパスから取得された場合、または URL として保存されている場合は、/document/normalized_images/* パスへのすべての参照を更新します。

URI とキーは、カタログからモデルをデプロイするときに生成されます。これらの値の詳細については、「Azure AI Foundry を使用して大規模言語モデルをデプロイする方法」を参照してください。

{
  "@odata.type": "#Microsoft.Skills.Custom.AmlSkill",
  "context": "/document/normalized_images/*",
  "uri": "https://myproject-1a1a-abcd.eastus.inference.ml.azure.com/score",
  "timeout": "PT1M",
  "key": "bbbbbbbb-1c1c-2d2d-3e3e-444444444444",
  "inputs": [
    {
      "name": "input_data",
      "sourceContext": "/document/normalized_images/*",
      "inputs": [
        {
          "name": "columns",
          "source": "=['image', 'text']"
        },
        {
          "name": "index",
          "source": "=[0]"
        },
        {
          "name": "data",
          "source": "=[[$(/document/normalized_images/*/data), '']]"
        }
      ]
    }
  ],
  "outputs": [
    {
      "name": "image_features"
    }
  ]
}

この AML スキルペイロードは、Azure AI Foundry の以下のテキスト埋め込みモデルで動作します。

Cohere-embed-v3-english
Cohere-embed-v3-multilingual

TextSplit スキルを使用してコンテンツをチャンクしていることを前提としているため、ベクトル化するテキストは /document/pages/* パス内にあります。テキストが別のパスから取得されている場合は、それに応じて /document/pages/* パスへのすべての参照を更新します。

実際の Azure AI Foundry デプロイからコピーした URL の末尾に /v1/embed というパスを追加する必要があります。また、ユースケースに合わせて、input_type、truncate、embedding_types の入力の値を変更することもできます。使用可能なオプションの詳細については、Cohere Embed API リファレンスを参照してください。

URI とキーは、カタログからモデルをデプロイするときに生成されます。これらの値の詳細については、「Azure AI Foundry を使用して Cohere Embed モデルをデプロイする方法」を参照してください。

現時点では、この統合では画像 URI はサポートされていないことに注意してください。

{
  "@odata.type": "#Microsoft.Skills.Custom.AmlSkill",
  "context": "/document/pages/*",
  "uri": "https://cohere-embed-v3-multilingual-hin.eastus.models.ai.azure.com/v1/embed",
  "key": "aaaaaaaa-0b0b-1c1c-2d2d-333333333333",
  "inputs": [
    {
      "name": "texts",
      "source": "=[$(/document/pages/*)]"
    },
    {
      "name": "input_type",
      "source": "='search_document'"
    },
    {
      "name": "truncate",
      "source": "='NONE'"
    },
    {
      "name": "embedding_types",
      "source": "=['float']"
    }
  ],
  "outputs": [
    {
      "name": "embeddings",
      "targetName": "aml_vector_data"
    }
  ]
}

さらに、Cohere モデルの出力は、直接埋め込み配列ではなく、それを含む JSON オブジェクトです。 indexProjections または outputFieldMappings を介してインデックス定義にマッピングするときに、適切に選択する必要があります。このマッピングを実装できるサンプル indexProjections ペイロードを次に示します。

スキル定義で別の embedding_types を選択した場合は、source パスの float を、代わりに選択した適切な種類に変更する必要があります。

"indexProjections": {
  "selectors": [
    {
      "targetIndexName": "<YOUR_TARGET_INDEX_NAME_HERE>",
      "parentKeyFieldName": "ParentKey", // Change this to the name of the field in your index definition where the parent key will be stored
      "sourceContext": "/document/pages/*",
      "mappings": [
        {
          "name": "aml_vector", // Change this to the name of the field in your index definition where the Cohere embedding will be stored
          "source": "/document/pages/*/aml_vector_data/float/0"
        }
      ]
    }
  ],
  "parameters": {}
}

Azure AI Foundry ベクトライザーペイロードのサンプル

Azure AI Foundry ベクトライザーは、AML スキルとは異なり、Azure AI Foundry モデルカタログを介してデプロイ可能な埋め込みモデルだけで動作するように調整されています。主な違いは、利用者は要求と応答のペイロードについて心配する必要はありませんが、Azure AI Foundry ポータルでモデルをデプロイした後にコピーした "モデル ID" に対応する modelName を指定する必要があるということです。

Azure AI Foundry からコピーされたプロパティを基にして、インデックス定義上でベクトライザーを構成する方法のサンプルペイロードを次に示します。

Cohere モデルの場合は、スキルで行ったように、URL の末尾に /v1/embed パスを追加しないでください。

"vectorizers": [
    {
        "name": "<YOUR_VECTORIZER_NAME_HERE>",
        "kind": "aml",
        "amlParameters": {
            "uri": "<YOUR_URL_HERE>",
            "key": "<YOUR_PRIMARY_KEY_HERE>",
            "modelName": "<YOUR_MODEL_ID_HERE>"
        },
    }
]

トークン認証を使用して接続する

キーベース認証を使用できない場合は、代わりに Azure 上のロールベースのアクセス制御を介したトークン認証用の AML スキルと Azure AI Foundry ベクトライザー接続を構成することができます。検索サービスにはシステムまたはユーザー割り当てマネージド ID が必要であり、ID には AML プロジェクトワークスペースの所有者または共同作成者のアクセス許可が必要です。その後、スキルとベクトル化の定義からキーフィールドを削除し、resourceId フィールドに置き換えることができます。 AML プロジェクトと検索サービスが異なるリージョンにある場合は、リージョンフィールドも指定します。

"uri": "<YOUR_URL_HERE>",
"resourceId": "subscriptions/<YOUR_SUBSCRIPTION_ID_HERE>/resourceGroups/<YOUR_RESOURCE_GROUP_NAME_HERE>/providers/Microsoft.MachineLearningServices/workspaces/<YOUR_AML_WORKSPACE_NAME_HERE>/onlineendpoints/<YOUR_AML_ENDPOINT_NAME_HERE>",
"region": "westus", // Only need if AML project lives in different region from search service

次の方法で共有

統合ベクトル化に Azure AI Foundry モデルカタログからの埋め込みモデルを使用する

前提条件

サポートされている埋め込みモデル

Azure AI Foundry モデルカタログの埋め込みモデルをデプロイする

AML スキルペイロードのサンプル

Azure AI Foundry ベクトライザーペイロードのサンプル

トークン認証を使用して接続する

次のステップ

フィードバック

その他のリソース

次の方法で共有

統合ベクトル化に Azure AI Foundry モデルカタログからの埋め込みモデルを使用する

前提条件

サポートされている埋め込みモデル

Azure AI Foundry モデル カタログの埋め込みモデルをデプロイする

AML スキル ペイロードのサンプル

Azure AI Foundry ベクトライザー ペイロードのサンプル

トークン認証を使用して接続する

次のステップ

フィードバック

その他のリソース

Azure AI Foundry モデルカタログの埋め込みモデルをデプロイする

AML スキルペイロードのサンプル

Azure AI Foundry ベクトライザーペイロードのサンプル