大規模言語モデル API 要求への応答をキャッシュする
適用対象: すべての API Management レベル
llm-semantic-cache-store
ポリシーは、チャット入力候補 API と 入力候補 API の要求に対する応答を、構成された外部キャッシュに格納します。 応答のキャッシュを使用すると、バックエンド Azure OpenAI API の帯域幅および処理の要件が低減され、API コンシューマーによって認識される遅延が小さくなります。
Note
- このポリシーには、対応する "大規模言語モデル API 要求に対するキャッシュされた応答を取得する" ポリシーが必要です。
- セマンティック キャッシュを有効にする前提条件と手順については、Azure API Management で Azure OpenAI API のセマンティック キャッシュを有効にする方法に関する記事を参照してください。
- 現在、このポリシーはプレビュー段階です。
Note
ポリシーの要素と子要素を、ポリシー ステートメントで指定された順序で設定します。 API Management ポリシーを設定または編集する方法について説明します。
サポートされているモデル
Azure AI Model Inference API を通じて利用可能な Azure API Management に追加された LLM API でポリシーを使用します。
ポリシー ステートメント
<llm-semantic-cache-store duration="seconds"/>
属性
属性 | 説明 | 必要 | Default |
---|---|---|---|
duration | キャッシュに格納されたエントリの有効期間 (秒単位)。 ポリシー式を使用できます。 | はい | 該当なし |
使用法
- ポリシー セクション: outbound
- ポリシー スコープ: グローバル、製品、API、操作
- ゲートウェイ: クラシック、v2、従量課金
使用上の注意
- このポリシーは、ポリシー セクションで 1 回だけ使用できます。
- キャッシュ参照が失敗した場合、キャッシュ関連の操作を使用する API 呼び出しでエラーは発生せず、キャッシュ操作が正常に完了します。
例
対応する llm-semantic-cache-lookup ポリシーの例
<policies>
<inbound>
<base />
<llm-semantic-cache-lookup
score-threshold="0.05"
embeddings-backend-id ="llm-backend"
embeddings-backend-auth ="system-assigned" >
<vary-by>@(context.Subscription.Id)</vary-by>
</llm-semantic-cache-lookup>
</inbound>
<outbound>
<llm-semantic-cache-store duration="60" />
<base />
</outbound>
</policies>
関連ポリシー
関連するコンテンツ
ポリシーに対する処理の詳細については、次のトピックを参照してください。