대규모 언어 모델 API 요청의 캐시된 응답 가져오기
적용 대상: 모든 API Management 계층
llm-semantic-cache-lookup
정책을 사용하면 구성된 외부 캐시에서 LLM(대규모 언어 모델) API 요청에 대한 응답의 캐시 조회를 수행하여 이전 요청과 프롬프트의 벡터 근접성과 지정된 유사성 점수 임계값을 기반으로 합니다. 응답 캐싱은 백 엔드 LLM API에 부과된 대역폭 및 처리 요구 사항을 줄이고 API 사용자가 느끼는 대기 시간을 낮춥니다.
참고 항목
- 이 정책에는 해당 대규모 언어 모델 API 요청에 대한 캐시 응답 정책이 있어야 합니다.
- 의미 체계 캐싱을 사용하도록 설정하기 위한 필수 조건과 단계는 Azure API Management에서 Azure OpenAI API에 대한 의미 체계 캐싱 사용을 참조하세요.
- 현재 이 정책은 미리 보기 상태입니다.
참고 항목
정책 문에 제공된 순서대로 정책의 요소 및 자식 요소를 설정합니다. API Management 정책을 설정하거나 편집하는 방법에 대해 자세히 알아봅니다.
지원되는 모델
Azure AI 모델 유추 API를 통해 사용할 수 있는 Azure API Management에 추가된 LLM API와 함께 정책을 사용합니다.
정책 문
<llm-semantic-cache-lookup
score-threshold="similarity score threshold"
embeddings-backend-id ="backend entity ID for embeddings API"
ignore-system-messages="true | false"
max-message-count="count" >
<vary-by>"expression to partition caching"</vary-by>
</llm-semantic-cache-lookup>
특성
특성 | 설명 | 필수 항목 | 기본값 |
---|---|---|---|
score-threshold | 캐시된 응답을 프롬프트에 반환할지 여부를 결정하는 데 사용되는 유사성 점수 임계값입니다. 값은 0.0에서 1.0 사이의 10진입니다. 자세히 알아보기. | 예 | 해당 없음 |
embeddings-backend-id | OpenAI 포함 API 호출을 위한 백 엔드 ID입니다. | 예 | 해당 없음 |
ignore-system-messages | 부울입니다. true 로 설정하면 캐시 유사성을 평가하기 전에 GPT 채팅 완료 프롬프트에서 시스템 메시지를 제거합니다. |
아니요 | false |
max-message-count | 지정된 경우 캐싱을 건너뛴 후 남은 대화 메시지 수입니다. | 아니요 | 해당 없음 |
Elements
이름 | 설명 | 필수 |
---|---|---|
vary-by | 값이 캐싱을 분할하는 런타임 시 결정되는 사용자 지정 식입니다. 여러 개의 vary-by 요소가 추가되면 값이 연결되어 고유한 조합을 만듭니다. |
아니요 |
사용
사용법 참고 사항
- 이 정책은 정책 섹션에서 한 번만 사용할 수 있습니다.
예제
해당 llm-semantic-cache-store 정책이 있는 예
<policies>
<inbound>
<base />
<llm-semantic-cache-lookup
score-threshold="0.05"
embeddings-backend-id ="llm-backend"
embeddings-backend-auth ="system-assigned" >
<vary-by>@(context.Subscription.Id)</vary-by>
</llm-semantic-cache-lookup>
</inbound>
<outbound>
<llm-semantic-cache-store duration="60" />
<base />
</outbound>
</policies>
관련 정책
관련 콘텐츠
정책 작업에 대한 자세한 내용은 다음을 참조하세요.
- 자습서: API 변환 및 보호
- 정책 문 및 해당 설정에 대한 전체 목록에 대한 정책 참조
- 정책 식
- 정책 설정 또는 편집
- 정책 구성 재사용
- 정책 코드 조각 리포지토리
- Azure API Management 정책 도구 키트
- Azure의 Microsoft Copilot을 사용하는 작성자 정책