Promptzwischenspeicherung

Artikel
10/25/2024

Mit der Promptzwischenspeicherung können Sie die gesamte Anforderungslatenz und die Kosten für längere Prompts reduzieren, die identischen Inhalt am Anfang des Prompts aufweisen. Prompt ist in diesem Kontext die Eingabe, die Sie im Rahmen Ihrer Chatvervollständigungsanforderung an das Modell senden. Anstatt die gleichen Eingabetoken immer wieder neu zu verarbeiten, kann das Modell einen temporären Cache von verarbeiteten Eingabedaten anlegen, um die Gesamtleistung zu verbessern. Die Promptzwischenspeicherung hat keine Auswirkungen auf den Ausgabeinhalt, der in der Modellantwort zurückgegeben wird, sondern verringert nur die Latenz und Kosten. Bei unterstützten Modellen werden zwischengespeicherte Token mit einem Rabatt von 50 % auf den Eingabetokenpreis in Rechnung gestellt.

Unterstützte Modelle

Derzeit unterstützen nur die folgenden Modelle die Promptzwischenspeicherung mit Azure OpenAI:

o1-preview-2024-09-12
o1-mini-2024-09-12
gpt-4o-2024-05-13
gpt-4o-2024-08-06
gpt-4o-mini-2024-07-18

API-Unterstützung

Offizielle Unterstützung für die Promptzwischenspeicherung wurde zuerst in der API-Version 2024-10-01-preview hinzugefügt. Derzeit unterstützen nur o1-preview-2024-09-12- und o1-mini-2024-09-12-Modelle den API-Antwortparameter cached_tokens.

Erste Schritte

Damit eine Anforderung das Zwischenspeichern der Anforderung nutzen kann, muss diese zwei Kriterien erfüllen:

Mindestens 1.024 Token lang
Die ersten 1.024 Token im Prompt müssen identisch sein.

Wenn eine Übereinstimmung zwischen einem Prompt und dem aktuellen Inhalt des Promptcaches gefunden wird, wird das als Cachetreffer bezeichnet. Cachetreffer werden als cached_tokens unter prompt_token_details in der Chatvervollständigungsantwort angezeigt.

{
  "created": 1729227448,
  "model": "o1-preview-2024-09-12",
  "object": "chat.completion",
  "service_tier": null,
  "system_fingerprint": "fp_50cdd5dc04",
  "usage": {
    "completion_tokens": 1518,
    "prompt_tokens": 1566,
    "total_tokens": 3084,
    "completion_tokens_details": {
      "audio_tokens": null,
      "reasoning_tokens": 576
    },
    "prompt_tokens_details": {
      "audio_tokens": null,
      "cached_tokens": 1408
    }
  }
}

Nach den ersten 1.024 Token erfolgen Cachetreffer pro 128 zusätzlichen identischen Token.

Ein einzelner Zeichenunterschied in den ersten 1.024 Token führt zu einem Cachefehler, der durch einen cached_tokens-Wert von 0 gekennzeichnet ist. Die Promptzwischenspeicherung ist standardmäßig aktiviert, ohne dass zusätzliche Konfiguration für unterstützte Modelle erforderlich ist.

Was wird zwischengespeichert?

Die o1-Serienmodelle sind nur Text und unterstützen keine Systemmeldungen, Bilder, Toolverwendungs-/Funktionsaufrufe oder strukturierte Ausgaben. Dies beschränkt die Wirksamkeit der Promptzwischenspeicherung für diese Modelle auf die Benutzer-/Assistententeile des Nachrichtenarrays, die weniger wahrscheinlich ein identisches 1024-Token-Präfix aufweisen.

Für gpt-4o- und gpt-4o-mini-Modelle wird das Zwischenspeichern von Prompts für Folgendes unterstützt:

Zwischenspeicherung	Beschreibung
Meldungen	Das vollständige Nachrichtenarray: System-, Benutzer- und Assistenteninhalte
Bilder	Bilder, die in Benutzernachrichten enthalten sind, sowohl als Links als auch als base64-codierte Daten Der Detailparameter muss alle Anforderungen gleich sein.
Toolverwendung	Sowohl das Nachrichtenarray als auch die Tooldefinitionen
Strukturierte Ausgaben	Das strukturierte Ausgabeschema wird als Präfix an die Systemmeldung angefügt.

Um die Wahrscheinlichkeit von Cachetreffern zu verbessern, sollten Sie Ihre Anforderungen so strukturieren, dass sich wiederholende Inhalte sich am Anfang des Nachrichtenarrays befinden.

Kann ich die Promptzwischenspeicherung deaktivieren?

Die Promptzwischenspeicherung ist standardmäßig aktiviert. Sie kann nicht deaktiviert werden.

Wie funktioniert das Zwischenspeichern von Prompts für bereitgestellte Bereitstellungen?

Bei unterstützten Modellen für bereitgestellte Bereitstellungen wird ein Rabatt von bis zu 100 % für zwischengespeicherte Eingabetoken gewährt. Weitere Informationen finden Sie in der Dokumentation zum bereitgestellten Durchsatz.

Freigeben über