Condividi tramite


Ottenere risposte memorizzate nella cache delle richieste dell'API Azure OpenAI

SI APPLICA A: Tutti i livelli di Gestione API

Usare i criteri azure-openai-semantic-cache-lookup per eseguire la ricerca nella cache delle risposte alle richieste API di completamento chat di Azure OpenAI e API di completamento da una cache esterna configurata, in base alla prossimità vettoriale della richiesta alle richieste precedenti e a una soglia del punteggio di somiglianza specificata. La memorizzazione delle risposte nella cache riduce la larghezza di banda e i requisiti di elaborazione imposti sull'API Azure OpenAI back-end e riduce la latenza percepita dagli utenti delle API.

Nota

Nota

Impostare gli elementi e gli elementi figlio del criterio nell'ordine specificato nell'istruzione del criterio. Altre informazioni su come impostare o modificare i criteri di Gestione API.

Modelli del Servizio OpenAI di Azure supportati

Il criterio viene usato usati con le API aggiunte a Gestione API dal Servizio OpenAI di Azure dei tipi seguenti:

Tipo di API Modelli supportati
Completamento della chat gpt-3.5

gpt-4
Completion gpt-3.5-turbo-instruct
Incorporamenti text-embedding-3-large

text-embedding-3-small

text-embedding-ada-002

Per maggiori informazioni, vedere Modelli di servizio OpenAI di Azure..

Istruzione del criterio

<azure-openai-semantic-cache-lookup
    score-threshold="similarity score threshold"
    embeddings-backend-id ="backend entity ID for embeddings API"
    ignore-system-messages="true | false"      
    max-message-count="count" >
    <vary-by>"expression to partition caching"</vary-by>
</azure-openai-semantic-cache-lookup>

Attributi

Attributo Descrizione Richiesto Valore predefinito
score-threshold Soglia del punteggio di somiglianza usata per determinare se restituire una risposta memorizzata nella cache a un prompt. Il valore è un decimale compreso tra 0,0 e 1,0. Altre informazioni. N/D
embeddings-backend-id ID back-end per la chiamata API di incorporamento OpenAI. N/D
ignore-system-messages Booleano. Se impostato su true, rimuove i messaggi di sistema da una richiesta di completamento della chat GPT prima di valutare la somiglianza della cache. No false
max-message-count Se specificato, numero di messaggi di dialogo rimanenti dopo il quale la memorizzazione nella cache viene ignorata. No N/D

Elementi

Nome Descrizione Richiesto
vary-by Espressione personalizzata determinata in fase di esecuzione la cui memorizzazione nella cache delle partizioni di valore. Se vengono aggiunti più elementi vary-by, i valori vengono concatenati per creare una combinazione univoca. No

Utilizzo

Note sull'utilizzo

  • Questo criterio può essere usato una sola volta in una sezione di criteri.

Esempi

Esempio con i criteri azure-openai-semantic-cache-store corrispondenti

<policies>
    <inbound>
        <base />
        <azure-openai-semantic-cache-lookup
            score-threshold="0.05"
            embeddings-backend-id ="azure-openai-backend"
            embeddings-backend-auth ="system-assigned" >
            <vary-by>@(context.Subscription.Id)</vary-by>
        </azure-openai-semantic-cache-lookup>
    </inbound>
    <outbound>
        <azure-openai-semantic-cache-store duration="60" />
        <base />
    </outbound>
</policies>

Per ulteriori informazioni sull'utilizzo dei criteri, vedere: