프롬프트 캐싱
프롬프트 캐싱을 사용하면 프롬프트 시작 시 콘텐츠가 동일한 긴 프롬프트에 대한 전체 요청 대기 시간과 비용을 줄일 수 있습니다. 이 컨텍스트의 "프롬프트" 는 채팅 완료 요청의 일부로 모델에 보내는 입력을 참조합니다. 서비스는 동일한 입력 토큰을 반복해서 다시 처리하는 대신 처리된 입력 토큰 계산의 임시 캐시를 유지하여 전반적인 성능을 향상시킬 수 있습니다. 프롬프트 캐싱은 대기 시간 및 비용 감소를 넘어 모델 응답에서 반환된 출력 콘텐츠에 영향을 주지 않습니다. 지원되는 모델의 경우 캐시된 토큰은 표준 배포 유형에 대한 입력 토큰 가격 할인과 프로비전된 배포 유형에 대한 입력 토큰에 대해 최대 100% 할인으로 청구됩니다.
캐시는 일반적으로 비활성 후 5~10분 이내에 지워지고 캐시의 마지막 사용 후 1시간 이내에 항상 제거됩니다. 프롬프트 캐시는 Azure 구독 간에 공유되지 않습니다.
지원되는 모델
현재 다음 모델만 Azure OpenAI를 사용하여 프롬프트 캐싱을 지원합니다.
o1-2024-12-17
o1-preview-2024-09-12
o1-mini-2024-09-12
gpt-4o-2024-11-20
gpt-4o-2024-08-06
gpt-4o-mini-2024-07-18
gpt-4o-realtime-preview
(버전 2024-12-17)'
참고 항목
프롬프트 캐싱은 이제 모델 미세 조정 gpt-4o
의 일부로 사용할 수 있습니다.gpt-4o-mini
자세한 내용은 가격 책정 페이지의 미세 조정 섹션을 참조하세요 .
API 지원
프롬프트 캐싱에 대한 공식 지원이 API 버전 2024-10-01-preview
에서 처음 추가되었습니다. 현재 o1 모델 패밀리만 API 응답 매개 변수를 cached_tokens
지원합니다.
시작
요청이 프롬프트 캐싱을 활용하려면 다음 두 가지가 모두 있어야 합니다.
- 최소 1,024개의 토큰 길이입니다.
- 프롬프트의 처음 1,024개 토큰은 동일해야 합니다.
프롬프트의 토큰 계산과 프롬프트 캐시의 현재 콘텐츠 간에 일치하는 항목이 발견되면 이를 캐시 적중이라고 합니다. 캐시 적중은 채팅 완료 응답에서 아래 prompt_tokens_details
와 같이 cached_tokens
표시됩니다.
{
"created": 1729227448,
"model": "o1-preview-2024-09-12",
"object": "chat.completion",
"service_tier": null,
"system_fingerprint": "fp_50cdd5dc04",
"usage": {
"completion_tokens": 1518,
"prompt_tokens": 1566,
"total_tokens": 3084,
"completion_tokens_details": {
"audio_tokens": null,
"reasoning_tokens": 576
},
"prompt_tokens_details": {
"audio_tokens": null,
"cached_tokens": 1408
}
}
}
처음 1,024개의 토큰 캐시 적 중 횟수는 동일한 토큰 128개마다 발생합니다.
처음 1,024개 토큰의 단일 문자 차이로 인해 값이 0인 캐시 cached_tokens
누락이 발생합니다. 프롬프트 캐싱은 지원되는 모델에 필요한 추가 구성 없이 기본적으로 사용하도록 설정됩니다.
캐시되는 항목은 무엇인가요?
o1 시리즈 모델은 텍스트 전용이며 시스템 메시지, 이미지, 도구 사용/함수 호출 또는 구조적 출력을 지원하지 않습니다. 이렇게 하면 이러한 모델에 대한 프롬프트 캐싱의 효율성이 동일한 1024 토큰 접두사를 가질 가능성이 적은 메시지 배열의 사용자/도우미 부분으로 제한됩니다.
프롬프트 캐싱은 다음을 지원합니다.
캐싱 지원 | 설명 | 지원되는 모델 |
---|---|---|
메시지 | 전체 메시지 배열: 시스템, 사용자 및 도우미 콘텐츠 | gpt-4o gpt-4o-mini gpt-4o-realtime-preview (버전 2024-12-17) |
이미지 | 링크 또는 base64로 인코딩된 데이터로 사용자 메시지에 포함된 이미지입니다. 세부 정보 매개 변수는 요청 간에 동일하게 설정해야 합니다. | gpt-4o gpt-4o-mini |
도구 사용 | 메시지 배열 및 도구 정의 모두입니다. | gpt-4o gpt-4o-mini gpt-4o-realtime-preview (버전 2024-12-17) |
구조적 출력 | 구조적 출력 스키마는 시스템 메시지에 접두사로 추가됩니다. | gpt-4o gpt-4o-mini |
캐시 적중이 발생할 가능성을 높이려면 메시지 배열의 시작 부분에서 반복적인 콘텐츠가 발생하도록 요청을 구성해야 합니다.
프롬프트 캐싱을 사용하지 않도록 설정할 수 있나요?
프롬프트 캐싱은 기본적으로 지원되는 모든 모델에 대해 사용하도록 설정됩니다. 프롬프트 캐싱에 대한 옵트아웃 지원은 없습니다.