다음을 통해 공유


대규모 언어 모델 API 요청의 캐시된 응답 가져오기

적용 대상: 모든 API Management 계층

llm-semantic-cache-lookup 정책을 사용하면 구성된 외부 캐시에서 LLM(대규모 언어 모델) API 요청에 대한 응답의 캐시 조회를 수행하여 이전 요청과 프롬프트의 벡터 근접성과 지정된 유사성 점수 임계값을 기반으로 합니다. 응답 캐싱은 백 엔드 LLM API에 부과된 대역폭 및 처리 요구 사항을 줄이고 API 사용자가 느끼는 대기 시간을 낮춥니다.

참고 항목

참고 항목

정책 문에 제공된 순서대로 정책의 요소 및 자식 요소를 설정합니다. API Management 정책을 설정하거나 편집하는 방법에 대해 자세히 알아봅니다.

지원되는 모델

Azure AI 모델 유추 API를 통해 사용할 수 있는 Azure API Management에 추가된 LLM API와 함께 정책을 사용합니다.

정책 문

<llm-semantic-cache-lookup
    score-threshold="similarity score threshold"
    embeddings-backend-id ="backend entity ID for embeddings API"
    ignore-system-messages="true | false"      
    max-message-count="count" >
    <vary-by>"expression to partition caching"</vary-by>
</llm-semantic-cache-lookup>

특성

특성 설명 필수 항목 기본값
score-threshold 캐시된 응답을 프롬프트에 반환할지 여부를 결정하는 데 사용되는 유사성 점수 임계값입니다. 값은 0.0에서 1.0 사이의 10진입니다. 자세히 알아보기. 해당 없음
embeddings-backend-id OpenAI 포함 API 호출을 위한 백 엔드 ID입니다. 해당 없음
ignore-system-messages 부울입니다. true로 설정하면 캐시 유사성을 평가하기 전에 GPT 채팅 완료 프롬프트에서 시스템 메시지를 제거합니다. 아니요 false
max-message-count 지정된 경우 캐싱을 건너뛴 후 남은 대화 메시지 수입니다. 아니요 해당 없음

Elements

이름 설명 필수
vary-by 값이 캐싱을 분할하는 런타임 시 결정되는 사용자 지정 식입니다. 여러 개의 vary-by 요소가 추가되면 값이 연결되어 고유한 조합을 만듭니다. 아니요

사용

사용법 참고 사항

  • 이 정책은 정책 섹션에서 한 번만 사용할 수 있습니다.

예제

해당 llm-semantic-cache-store 정책이 있는 예

<policies>
    <inbound>
        <base />
        <llm-semantic-cache-lookup
            score-threshold="0.05"
            embeddings-backend-id ="llm-backend"
            embeddings-backend-auth ="system-assigned" >
            <vary-by>@(context.Subscription.Id)</vary-by>
        </llm-semantic-cache-lookup>
    </inbound>
    <outbound>
        <llm-semantic-cache-store duration="60" />
        <base />
    </outbound>
</policies>

정책 작업에 대한 자세한 내용은 다음을 참조하세요.