Partager via


Vue d’ensemble : déployer des modèles, des flux et des applications web avec Azure AI Studio

Azure AI Studio prend en charge le déploiement de modèles de langage volumineux (Large Language Model/LLM), de flux et d’applications web. Le déploiement d’un LLM, ou d’un flux, le rend disponible pour une utilisation dans un site web, une application ou d’autres environnements de production. Ce travail implique généralement l’hébergement du modèle sur un serveur ou dans le cloud, et la création d’une API ou d’une autre interface pour permettre aux utilisateurs d’interagir avec le modèle.

Le processus d’interaction avec un modèle déployé est appelé inférence. L’inférence implique d’appliquer de nouvelles données d’entrée à un modèle pour générer des sorties.

Vous pouvez utiliser l’inférence dans différentes applications. Par exemple, vous pouvez utiliser un modèle de complétion de conversation pour terminer automatiquement des mots ou des expressions qu’une personne tape en temps réel. Vous pouvez aussi utiliser un modèle de conversation pour générer une réponse à la question « Pouvez-vous créer un itinéraire pour une visite d’une journée à Seattle ? ». Les possibilités sont infinies.

Déployer des modèles

Tout d’abord, vous pourriez demander :

  • « Quels modèles puis-je déployer ? »

    Azure AI Studio prend en charge le déploiement de certains des grands modèles de langage et de vision de base les plus répandus, maintenus par Microsoft, Hugging Face, Meta, etc.

  • « Comment faire pour choisir le bon modèle ? »

    Azure AI Studio fournit un catalogue de modèles où vous pouvez rechercher et filtrer des modèles en fonction de votre cas d’usage. Vous pouvez également tester un modèle sur un terrain de jeu échantillonné avant de le déployer sur votre projet.

  • « De quel endroit d’Azure AI Studio puis-je déployer un modèle ? »

    Vous pouvez déployer un modèle depuis le catalogue de modèles ou depuis la page de déploiement de votre projet.

Azure AI Studio simplifie les déploiements. Une sélection simple ou une ligne de code déploie un modèle et génère un point de terminaison d’API que vos applications vont consommer.

Modèles Azure OpenAI

Avec Azure OpenAI Service, vous pouvez accéder aux modèles OpenAI les plus récents qui ont des fonctionnalités d’entreprise provenant d’Azure. En savoir plus sur le déploiement de modèles Azure OpenAI dans AI Studio.

Ouvrir des modèles

Le catalogue de modèles offre un accès à une grande variété de modèles de différentes modalités. Vous pouvez déployer certains modèles du catalogue de modèles en tant que service avec un paiement à l’utilisation. Cette possibilité permet de consommer des modèles en tant qu’API sans les héberger sur votre abonnement, tout en préservant la sécurité et la conformité d’entreprise dont votre organisation a besoin.

Déployer des modèles en tant qu’API serverless

Le déploiement de modèles en tant qu’API serverless ne nécessite pas de quota dans votre abonnement. Cette option vous permet de déployer votre modèle en tant que service (MaaS). Vous utilisez un déploiement d’API serverless et vous êtes facturé par jeton à la manière du paiement à l’utilisation. Pour plus d’informations sur le déploiement d’un modèle en tant qu’API serverless, consultez Déployer des modèles en tant qu’API serverless.

Déployer des modèles avec une infrastructure managée hébergée

Vous pouvez héberger des modèles ouverts dans votre propre abonnement avec une infrastructure managée, des machines virtuelles et le nombre d’instances nécessaires pour la gestion de la capacité. Il existe un large éventail de modèles provenant d’Azure OpenAI, de Hugging Face et de NVIDIA. En savoir plus sur le déploiement de modèles ouverts sur des points de terminaison temps réel.

Facturation pour le déploiement et l’inférence des LLM dans Azure AI Studio

Le tableau suivant décrit comment vous êtes facturé pour le déploiement et l’inférence des LLM dans Azure AI Studio. Pour plus d’informations sur le suivi des coûts, consultez Surveiller les coûts pour les modèles proposés via la Place de marché Azure.

Cas d’usage Modèles Azure OpenAI Modèles déployés en tant qu’API serverless (paiement à l’utilisation) Modèles déployés avec le calcul managé
Déployer un modèle du catalogue de modèles sur votre projet Non, vous n’êtes pas facturé pour le déploiement d’un modèle Azure OpenAI sur votre projet. Oui, vous êtes facturé selon l’infrastructure du point de terminaison.1 Oui, vous êtes facturé pour l’infrastructure qui héberge le modèle.2
Tester le mode conversation dans un terrain de jeu après le déploiement d’un modèle sur votre projet Oui, vous êtes facturé en fonction de l’utilisation de votre jeton. Oui, vous êtes facturé en fonction de l’utilisation de votre jeton. Aucune
Tester un modèle dans un terrain de jeu échantillonné sur le catalogue de modèles (le cas échéant) Non applicable None None
Tester un modèle dans un terrain de jeu sous votre projet (le cas échéant) ou dans l’onglet Test de la page détails du déploiement sous votre projet. Oui, vous êtes facturé en fonction de l’utilisation de votre jeton. Oui, vous êtes facturé en fonction de l’utilisation de votre jeton. Aucune

1 Une infrastructure de point de terminaison minimale est facturée par minute. Vous n’êtes pas facturé pour l’infrastructure qui héberge le modèle dans le paiement à l’utilisation. Une fois que vous avez supprimé le point de terminaison, aucun autre frais n’est facturé.

2 La facturation est effectuée sur la base des minutes, en fonction du niveau du produit et du nombre d’instances utilisées dans le déploiement depuis le moment de la création. Une fois que vous avez supprimé le point de terminaison, aucun autre frais n’est facturé.

Déployer des flux

Qu’est-ce qu’un flux et pourquoi vouloir le déployer ? Un flux est une séquence d’outils qui peuvent être utilisés pour créer une application d’IA générative. Le déploiement d’un flux diffère du déploiement d’un modèle en cela que vous pouvez personnaliser le flux avec vos propres données et d’autres composants comme des incorporations, la recherche dans une base de données vectorielle et des connexions personnalisées. Pour obtenir un guide pratique, consultez Déployer un flux pour l’inférence en temps réel.

Par exemple, vous pouvez générer un chatbot qui utilise vos données pour générer des réponses informées et fondées aux requêtes utilisateur. Lorsque vous ajoutez vos données dans le terrain de jeu, un flux d’invite est automatiquement généré pour vous. Vous pouvez déployer le flux tel quel ou le personnaliser. Dans Azure AI Studio, vous pouvez également créer votre propre flux à partir de zéro.

Quelle que soit la façon dont vous choisissez de créer un flux dans Azure AI Studio, vous pouvez le déployer rapidement et générer un point de terminaison d’API à utiliser par vos applications.

Déployer des applications web

Le modèle ou le flux que vous déployez peut être utilisé dans une application web hébergée sur Azure. Azure AI Studio offre un moyen rapide de déployer une application web. Pour plus d’informations, consultez le tutoriel Conversation d’entreprise Azure AI Studio.

Planifier la sécurité IA pour un modèle déployé

Pour les modèles Azure OpenAI comme GPT-4, Azure AI Studio fournit un filtre de sécurité IA lors du déploiement pour garantir une utilisation responsable de l’IA. Un filtre de sécurité permet la modération des contenus dangereux et sensibles pour promouvoir la sécurité des applications améliorées par l’IA.

Azure AI Studio offre aussi une surveillance des modèles pour les modèles déployés. La surveillance des modèles pour les LLM utilise les modèles de langage GPT les plus récents pour surveiller et alerter quand les sorties d’un modèle ne sont pas conformes aux seuils définis pour la sécurité et la qualité de la génération. Par exemple, vous pouvez configurer un moniteur pour évaluer la façon dont les réponses générées par le modèle s’alignent sur les informations de la source d’entrée (vraisemblance), et correspondent étroitement à une phrase ou un document factuels (similarité).

Optimiser le niveau de performance d’un modèle déployé

L’optimisation des LLM nécessite un examen attentif de plusieurs facteurs, notamment les métriques opérationnelles (par exemple la latence), les métriques de qualité (par exemple la précision) et les coûts. Il est important de travailler avec des scientifiques et des ingénieurs des données expérimentés pour garantir que votre modèle est optimisé pour votre cas d’usage spécifique.