Explorer les modèles de langage dans le catalogue de modèles
La sélection d’un modèle de langage pour votre application d’IA générative est importante, car elle affecte l’efficacité de votre application. Lorsque vous développez une application d’IA générative avec Azure AI Foundry, vous générez une application de conversation qui utilise des modèles de langage à différentes fins :
- Pour comprendre la question des utilisateurs.
- Pour rechercher un contexte pertinent.
- Pour générer une réponse à la question de l’utilisateur.
Sur le portail Azure AI Foundry, vous pouvez parcourir tous les modèles de langage disponibles dans le catalogue de modèles. Explorons le catalogue de modèles et les types de modèles de langage disponibles via Azure AI.
Explorer le catalogue de modèles
Sur le portail Azure AI Foundry, vous pouvez parcourir le catalogue de modèles pour explorer tous les modèles de langage disponibles. En outre, vous pouvez importer n’importe quel modèle à partir de la bibliothèque open source Hugging Face dans le catalogue de modèles.
Conseil
Hugging Face est une communauté open source qui met des modèles à la disposition du public. Vous trouverez tous les modèles dans leur catalogue. Vous pouvez également explorer la documentation pour en savoir plus sur le fonctionnement des différents modèles, comme BERT.
Le catalogue de modèles Azure AI Foundry s’intègre aux modèles de Hugging Face et d’autres sources. Dans le catalogue de modèles, vous pouvez explorer, ajuster et déployer des modèles.
Important
La disponibilité des modèles varie selon l’emplacement, également appelé région. Votre emplacement est spécifié sur le niveau du hub IA. Lorsque vous créez un Hub IA, vous pouvez utiliser l’assistance Emplacement pour spécifier le modèle que vous souhaitez déployer pour obtenir la liste des emplacements dans lesquels vous pouvez le déployer. Vous pouvez également explorer la disponibilité des régions et la table récapitulative de modèles pour découvrir plus d’informations.
Découvrir des modèles de langage
Les modèles de langage ou de fondation disponibles dans le catalogue de modèles sont déjà entraînés. Vous pouvez déployer un modèle de langage dans un point de terminaison ou ajuster un modèle pour améliorer son fonctionnement dans une tâche spécialisée ou sur des connaissances spécifiques au domaine.
Votre modèle sélectionné dépend de votre cas d’usage et de vos préférences de déploiement. Tout d’abord, vous devez penser à la tâche que vous souhaitez que le modèle effectue. Par exemple :
- Classification de texte
- Classification de jetons
- Réponses aux questions
- Résumé
- Traduction
Certains modèles de langage couramment utilisés pour diverses tâches sont les suivants :
Modèle | Description |
---|---|
BERT (Bidirectional Encoder Representations from Transformers) | Axé sur l’encodage des informations à l’aide du contexte avant et après un jeton (bidirectionnel). Couramment utilisé lorsque vous souhaitez affiner un modèle pour effectuer une tâche spécifique, comme la classification de texte et les réponses aux questions. |
GPT (Generative Pretrained Transformer) | Entraîné pour créer du texte cohérent et contextuellement pertinent, il est le plus couramment utilisé pour des tâches telles que la génération de texte et l’achèvement de conversation. |
LLaMA (Large Language Model Meta AI) | Famille de modèles créée par Meta. Lors de l’entraînement des modèles LLaMA, l’accent a été mis sur l’apport de données d’entraînement davantage que sur l’augmentation de la complexité des modèles. Vous pouvez utiliser des modèles LLaMA pour la génération de texte et l’achèvement de conversation. |
Phi-3-mini (variante de paramètres 3.8B des modèles Phi) | Un modèle de pointe léger optimisé pour des environnements aux ressources limitées et l’inférence locale (comme au téléphone), prenant en charge des invites de long contexte jusqu’à 128 000 jetons. Il est développé avec un focus sur l’apprentissage par renforcement, l’alignement et la sécurité. |
Après avoir sélectionné une tâche et filtré les modèles disponibles adaptés à votre objectif, vous pouvez passer en revue le récapitulatif du modèle dans Azure AI Foundry pour tenir compte d’autres considérations :
- Fonctionnalités du modèle : Évaluez les capacités du modèle de langage et comment il s’aligne avec votre tâche. Par exemple, un modèle comme BERT est mieux adapté à la compréhension de textes courts.
- Données de pré-entraînement : Examinez le jeu de données utilisé pour le pré-entraînement du modèle de langage. Par exemple, GPT-2 est entraîné sur du contenu non filtré provenant d’Internet, ce qui peut entraîner des biais.
- Limitations et biais : Tenez compte des limitations ou des biais qui pourraient être présents dans le modèle de langage.
- Prise en charge linguistique : recherchez quels modèles offrent la prise en charge linguistique spécifique ou les fonctionnalités multilingues dont vous avez besoin pour votre cas d’usage.
Conseil
Azure AI Foundry vous fournit des descriptions pour chaque modèle de langage dans le catalogue de modèles, mais vous pouvez également trouver plus d’informations sur chaque modèle via leur carte de modèle respective. Les cartes de modèle sont référencées dans la vue d’ensemble de chaque modèle et hébergées sur le site web de Hugging Face
Comparer les benchmarks entre les modèles
Lorsque vous découvrez des modèles de langage, vous pouvez également comparer les Benchmarks de modèles disponibles pour évaluer la qualité des modèles avant votre déploiement et intégration d’un modèle. Les benchmarks sont similaires à des cartes de rapport pour les modèles de langage. Les benchmarks vous permettent de comprendre l’efficacité du fonctionnement d’un modèle en le comparant à d’autres modèles en utilisant des tests ou des tâches spécifiques. Les Benchmarks de modèles sur le portail Azure AI Foundry fournissent une liste organisée des modèles les plus performants pour une tâche donnée en fonction de mesures de benchmarking.
Certaines mesures couramment utilisées pour évaluer les performances de modèles de langage sont les suivantes :
Mesure | Description |
---|---|
Précision | Les scores de précision sont disponibles au niveau du jeu de données et du modèle. Au niveau du jeu de données, le score est la valeur moyenne d’une métrique de précision calculée sur tous les exemples du jeu de données. La métrique de précision utilisée est une correspondance exacte dans tous les cas, à l’exception du jeu de données HumanEval qui utilise une métrique pass@1. La correspondance exacte compare simplement le texte généré par le modèle avec la réponse correcte en fonction du jeu de données, en remontant « un » si le texte généré correspond exactement à la réponse et « zéro » dans le cas contraire. Pass@1 mesure la proportion de solutions de modèle qui réussissent un ensemble de tests unitaires dans une tâche de génération de code. Au niveau du modèle, le score de précision est la moyenne des précisions au niveau du jeu de données pour chaque modèle. |
Cohérence | La cohérence évalue la façon dont le modèle de langage peut produire une sortie fluide, qui se lit naturellement et qui ressemble à un langage humain. |
Fluidité | La fluidité évalue la maîtrise du langage d’une réponse prédite par l’IA générative. Elle évalue la façon dont le texte généré respecte les règles grammaticales, les structures syntaxiques et l’utilisation appropriée du vocabulaire, ce qui aboutit à des réponses linguistiques correctes et naturelles. |
GPTSimilarity | La GPTSimilarity est une mesure qui quantifie la similarité entre une phrase de vérité terrain (ou un document) et la phrase de prédiction générée par un modèle d'IA. Il est mesuré en calculant d’abord les incorporations au niveau de la phrase à l’aide de l’API d’incorporations pour la vérité terrain et la prédiction du modèle. Ces incorporations constituent des représentations vectorielles de haute dimension des phrases, capturant leur signification sémantique et leur contexte. |
Fondement | Le fondement mesure l’alignement des réponses générées par le modèle de langage sur les informations de la source d’entrée. |
Pertinence | La pertinence mesure dans quelle proportion les réponses générées par le modèle de langage sont pertinentes et directement liées aux questions données. |
Remarque
Lorsque vous développez et évaluez des applications qui utilisent des modèles de langage, il est important d’utiliser des mesures permettant de calculer les performances de l’application et du modèle. Les mêmes mesures utilisées pour les benchmarks, qui comparent divers modèles, sont également utilisées pour évaluer les performances d’un modèle individuel pendant un développement. Ces mesures vous permettent de comprendre l’efficacité de votre modèle et d’identifier des zones d’amélioration.
La sélection du modèle convenant à vos besoins peut être un processus itératif. Ensuite, vous découvrez comment déployer un modèle afin de pouvoir le tester et d’expérimenter la façon d’optimiser le modèle pour votre cas d’utilisation.