次の方法で共有


Azure OpenAI API 要求への応答をキャッシュする

適用対象: すべての API Management レベル

azure-openai-semantic-cache-store ポリシーは、Azure OpenAI Chat Completion API と Completion API の要求に対する応答を、構成された外部キャッシュに格納します。 応答のキャッシュを使用すると、バックエンド Azure OpenAI API の帯域幅および処理の要件が低減され、API コンシューマーによって認識される遅延が小さくなります。

Note

Note

ポリシーの要素と子要素を、ポリシー ステートメントで指定された順序で設定します。 API Management ポリシーを設定または編集する方法について説明します。

サポートされている Azure OpenAI Service モデル

このポリシーは、次の種類の Azure OpenAI Service から API Management に追加された API で使用されます。

[API の種類] サポートされているモデル
チャット入力候補 gpt-3.5

gpt-4
完了 gpt-3.5-turbo-instruct
埋め込み text-embedding-3-large

text-embedding-3-small

text-embedding-ada-002

詳細については、「Azure OpenAI Service モデル」を参照してください。

ポリシー ステートメント

<azure-openai-semantic-cache-store duration="seconds"/>

属性

属性 説明 必要 Default
duration キャッシュに格納されたエントリの有効期間 (秒単位)。 ポリシー式を使用できます。 はい 該当なし

使用法

使用上の注意

  • このポリシーは、ポリシー セクションで 1 回だけ使用できます。
  • キャッシュ参照が失敗した場合、キャッシュ関連の操作を使用する API 呼び出しでエラーは発生せず、キャッシュ操作が正常に完了します。

対応する azure-openai-semantic-cache-lookup ポリシーの例

<policies>
    <inbound>
        <base />
        <azure-openai-semantic-cache-lookup
            score-threshold="0.05"
            embeddings-backend-id ="azure-openai-backend"
            embeddings-backend-auth ="system-assigned" >
            <vary-by>@(context.Subscription.Id)</vary-by>
        </azure-openai-semantic-cache-lookup>
    </inbound>
    <outbound>
        <azure-openai-semantic-cache-store duration="60" />
        <base />
    </outbound>
</policies>

ポリシーに対する処理の詳細については、次のトピックを参照してください。