Déployer un modèle sur un point de terminaison

Effectué

Quand vous développez une application d’IA générative, vous devez intégrer des modèles de langage dans votre application. Pour pouvoir utiliser un modèle de langage, vous devez déployer le modèle. Examinons comment déployer des modèles de langage dans Azure AI Foundry, après avoir d’abord compris pourquoi déployer un modèle.

Comprendre pourquoi déployer un modèle

Les modèles de langage, comme les modèles Machine Learning traditionnels, sont conçus pour générer une sortie basée sur une entrée. Pour tirer parti d’un modèle, vous voulez une solution qui peut envoyer une entrée à un modèle, que le modèle traite, puis visualiser la sortie quelque part.

Avec les applications d’IA générative, vous avez une application de conversation qui attend une entrée d’un utilisateur, souvent sous la forme d’une question. Vous voulez que le modèle traite cette entrée et génère une réponse que vous pouvez renvoyer, via l’application de conversation, à votre utilisateur. Pour intégrer un modèle de langage qui peut traiter des données d’entrée et générer des données de sortie, vous devez déployer le modèle sur un point de terminaison.

Un point de terminaison est une URL spécifique où un modèle ou un service déployé est accessible. Il agit en tant que passerelle pour que les utilisateurs envoient leurs demandes au modèle et reçoivent les résultats. Chaque déploiement de modèle a généralement son propre point de terminaison unique, ce qui permet à différentes applications de communiquer avec le modèle via une API (Interface de programmation d’application).

Quand vous déployez un modèle de langage du catalogue de modèles avec Azure AI Foundry, vous obtenez un point de terminaison, qui se compose d’un URI (Uniform Resource Identifier) cible et d’une clé unique. Par exemple, un URI cible pour un modèle GPT-3.5 déployé peut être :

https://ai-aihubdevdemo.openai.azure.com/openai/deployments/gpt-35-turbo/chat/completions?api-version=2023-03-15-preview

L’URI inclut le nom de votre hub IA et le nom de votre modèle déployé, et il spécifie ce que vous voulez que le modèle fasse. Dans l’exemple, le modèle GPT-3.5 est utilisé pour la complétion des conversations.

Pour protéger vos modèles déployés, chaque déploiement est fourni avec une clé. Vous êtes autorisé à envoyer et recevoir des demandes vers et depuis l’URI cible seulement si vous fournissez également la clé pour l’authentification.

Pour utiliser un modèle déployé, vous effectuez généralement un appel d’API. Vous pouvez effectuer un appel d’API en utilisant du code comme Python ou C#, ou un outil comme Azure AI Foundry ou Postman. Un appel d’API implique l’envoi d’une demande au point de terminaison du modèle en utilisant l’API. La demande inclut généralement les données d’entrée que le modèle doit traiter. Le modèle traite ensuite les données et renvoie une réponse avec les résultats. De cette façon, vous pouvez interagir avec le modèle déployé et utiliser ses fonctionnalités dans vos applications.

Maintenant que vous comprenez pourquoi vous voulez déployer un modèle, examinons les options de déploiement avec Azure AI Foundry.

Déployer un modèle de langage avec Azure AI Foundry

Quand vous déployez un modèle de langage avec Azure AI Foundry, plusieurs types sont disponibles, qui dépendent du modèle que vous voulez déployer :

Activité Modèles Azure OpenAI Modèles déployés en tant qu’API serverless (paiement à l’utilisation) Modèles déployés avec le calcul géré par l’utilisateur
Déployer le modèle Non, vous n’êtes pas facturé pour le déploiement d’un modèle Azure OpenAI sur votre projet. Oui, vous êtes facturé au minimum par infrastructure du point de terminaison. Oui, vous êtes facturé pour l’infrastructure qui héberge le modèle par minute.
Appeler le point de terminaison Oui, vous êtes facturé en fonction de l’utilisation de votre jeton. Oui, vous êtes facturé en fonction de l’utilisation de votre jeton. Aucune.