Partager via


Obtenir les réponses mises en cache des demandes d’API de modèle de langage volumineux

S’APPLIQUE À : Tous les niveaux de Gestion des API

Utilisez la stratégie llm-semantic-cache-lookup pour effectuer une recherche dans le cache des réponses aux requêtes d’API de grande valeur de modèle de langage (LLM) à partir d’un cache externe configuré, en fonction de la proximité vectorielle de l’invite aux requêtes précédentes et d’un seuil de score de similarité spécifié. La mise en cache de la réponse réduit les besoins en bande passante et en calcul imposés par l’API LLM principal et limite la latence perçue par les consommateurs de l’API.

Remarque

Remarque

Définissez les éléments enfants et de stratégie dans l’ordre fourni dans l’instruction de stratégie. En savoir plus sur comment définir ou modifier des stratégies du service Gestion des API.

Modèles pris en charge

Utilisez la stratégie avec les API LLM ajoutées à Gestion des API Azure qui sont disponibles via l’API d’inférence de modèle Azure AI.

Instruction de la stratégie

<llm-semantic-cache-lookup
    score-threshold="similarity score threshold"
    embeddings-backend-id ="backend entity ID for embeddings API"
    embeddings-backend-auth ="system-assigned"             
    ignore-system-messages="true | false"      
    max-message-count="count" >
    <vary-by>"expression to partition caching"</vary-by>
</llm-semantic-cache-lookup>

Attributs

Attribut Description Obligatoire Default
score-threshold Seuil de score de similitude utilisé pour déterminer s’il faut retourner une réponse mise en cache à une invite. La valeur doit être un nombre décimal entre 0.0 et 1.0. Plus d’informations Oui S/O
embeddings-backend-id ID de back-end pour un appel d’API d’incorporations OpenAI. Oui S/O
embeddings-backend-auth Authentification utilisée pour un back-end d’API des incorporations Azure OpenAI. Oui. Cette propriété doit être définie sur system-assigned. S/O
ignore-system-messages Booléenne. En cas de définition sur true, supprime les messages système d’une invite de complétion de conversation GPT avant d’évaluer une similitude de cache. Non false
max-message-count Si spécifié, nombre de messages de dialogue restants une fois la mise en cache ignorée. Non N/A

Éléments

Nom Description Obligatoire
vary-by Expression personnalisée déterminée au moment du runtime dont la valeur partitionne la mise en cache. Si plusieurs éléments vary-by sont ajoutés, les valeurs sont concaténées pour créer une combinaison unique. Non

Usage

Notes d’utilisation

  • Cette stratégie ne peut être employée qu’une seule fois dans une section stratégie.

Exemples

Exemple avec une stratégie llm-semantic-cache-store correspondante

<policies>
    <inbound>
        <base />
        <llm-semantic-cache-lookup
            score-threshold="0.05"
            embeddings-backend-id ="llm-backend"
            embeddings-backend-auth ="system-assigned" >
            <vary-by>@(context.Subscription.Id)</vary-by>
        </llm-semantic-cache-lookup>
    </inbound>
    <outbound>
        <llm-semantic-cache-store duration="60" />
        <base />
    </outbound>
</policies>

Pour plus d’informations sur l’utilisation des stratégies, consultez :