Ottenere risposte memorizzate nella cache di richieste API del modello linguistico di grandi dimensioni
SI APPLICA A: Tutti i livelli di Gestione API
Usare i criteri llm-semantic-cache-lookup
per eseguire la ricerca nella cache delle risposte alle richieste API di modello linguistico di grandi dimensioni (LLM) da una cache esterna configurata, in base alla prossimità vettoriale del prompt alle richieste precedenti e a una soglia del punteggio di somiglianza specificata. La memorizzazione delle risposte nella cache riduce la larghezza di banda e i requisiti di elaborazione imposti sull'API LLM back-end e riduce la latenza percepita dagli utenti delle API.
Nota
- Questo criterio deve avere una Risposta della cache corrispondente ai criteri delle richieste API del modello linguistico di grandi dimensioni.
- Per i prerequisiti e i passaggi per abilitare la memorizzazione nella cache semantica, vedere Abilitare la memorizzazione nella cache semantica per le API Azure OpenAI in Gestione API di Azure.
- Attualmente, questi criteri sono in anteprima.
Nota
Impostare gli elementi e gli elementi figlio del criterio nell'ordine specificato nell'istruzione del criterio. Altre informazioni su come impostare o modificare i criteri di API Management.
Modelli supportati
Usare i criteri con le API LLM aggiunte a Gestione API di Azure disponibili tramite l'API di inferenza del modello di intelligenza artificiale di Azure.
Istruzione del criterio
<llm-semantic-cache-lookup
score-threshold="similarity score threshold"
embeddings-backend-id ="backend entity ID for embeddings API"
ignore-system-messages="true | false"
max-message-count="count" >
<vary-by>"expression to partition caching"</vary-by>
</llm-semantic-cache-lookup>
Attributi
Attributo | Descrizione | Richiesto | Valore predefinito |
---|---|---|---|
score-threshold | Soglia del punteggio di somiglianza usata per determinare se restituire una risposta memorizzata nella cache a un prompt. Il valore è un decimale compreso tra 0,0 e 1,0. Altre informazioni. | Sì | N/D |
embeddings-backend-id | ID back-end per la chiamata API di incorporamento OpenAI. | Sì | N/D |
ignore-system-messages | Booleano. Se impostato su true , rimuove i messaggi di sistema da una richiesta di completamento della chat GPT prima di valutare la somiglianza della cache. |
No | false |
max-message-count | Se specificato, numero di messaggi di dialogo rimanenti dopo il quale la memorizzazione nella cache viene ignorata. | No | N/D |
Elementi
Nome | Descrizione | Richiesto |
---|---|---|
vary-by | Espressione personalizzata determinata in fase di esecuzione la cui memorizzazione nella cache delle partizioni di valore. Se vengono aggiunti più elementi vary-by , i valori vengono concatenati per creare una combinazione univoca. |
No |
Utilizzo
- Sezioni del criterio: inbound
- Ambiti del criterio: globale, prodotto, API, operazione
- Gateway: classico, v2, a consumo
Note sull'utilizzo
- Questo criterio può essere usato una sola volta in una sezione di criteri.
Esempi
Esempio con i criteri llm-semantic-cache-store corrispondenti
<policies>
<inbound>
<base />
<llm-semantic-cache-lookup
score-threshold="0.05"
embeddings-backend-id ="llm-backend"
embeddings-backend-auth ="system-assigned" >
<vary-by>@(context.Subscription.Id)</vary-by>
</llm-semantic-cache-lookup>
</inbound>
<outbound>
<llm-semantic-cache-store duration="60" />
<base />
</outbound>
</policies>
Criteri correlati
Contenuto correlato
Per ulteriori informazioni sull'utilizzo dei criteri, vedere:
- Esercitazione: trasformare e proteggere l'API
- Informazioni di riferimento sui criteri per un elenco completo delle istruzioni dei criteri e delle relative impostazioni
- Espressioni di criteri
- Impostare o modificare criteri
- Riutilizzare le configurazioni dei criteri
- Repository dei frammenti di criteri
- Toolkit dei criteri di Azure Gestione API
- Creare criteri usando Microsoft Copilot in Azure