Types de déploiement Azure OpenAI
Azure OpenAI permet aux clients de choisir la structure d’hébergement qui correspond à leurs modèles d’entreprise et d’utilisation. Le service propose deux principaux types de déploiement : standard et approvisionné. Standard est proposé avec une option de déploiement mondial qui permet d’acheminer le trafic à l’échelle mondiale pour fournir un débit plus élevé. Le niveau Approvisionné est également offert avec une option de déploiement global, ce qui permet aux utilisateurs d’acheter et de déployer des unités de débit approvisionnées sur l’ensemble de l’infrastructure globale Azure. Tous les déploiements peuvent effectuer exactement les mêmes opérations d’inférence, mais la facturation, la mise à l’échelle et les performances sont sensiblement différentes. Dans le cadre de votre conception de solution, vous devez prendre deux décisions clés :
- Besoins en matière de traitement des données : ressources globales et régionales
- Volume d’appel : standard versus approvisionné
Types de déploiement mondial versus régional
Pour les déploiements standard et approvisionné, vous avez le choix entre deux types de configuration dans votre ressource : mondial ou régional. Global-Standard est le point de départ recommandé.
Les déploiements mondiaux tirent parti de l’infrastructure mondiale d’Azure et acheminent dynamiquement le trafic client vers le centre de données avec la meilleure disponibilité pour les demandes d’inférence du client. Cela signifie que vous obtenez les limites de débit initiales les plus élevées et la meilleure disponibilité de modèle avec Global, tout en permettant de fournir notre contrat SLA de durée de bon fonctionnement et notre faible latence. Pour les charges de travail à volumes élevés au-dessus du niveau d’utilisation spécifié sur la norme standard et globale, vous pouvez rencontrer des variations de latence accrues. Pour les clients qui nécessitent une variation de latence moindre lors de l’utilisation de charges de travail importantes, nous vous recommandons d’acheter un débit approvisionné.
Nos déploiements mondiaux conviennent parfaitement à tous les nouveaux modèles et toutes les nouvelles fonctionnalités. Les clients avec de très grandes exigences de débit ont tout intérêt à envisager notre offre de déploiement approvisionné.
Types de déploiement
Azure OpenAI offre trois types de déploiements. Ceux-ci fournissent un niveau varié de fonctionnalités qui offrent des compromis sur le débit, les contrats SLA et le prix. Vous trouverez ci-dessous un résumé des options, suivi d’une description plus détaillée de chacune d’elles.
Offre | Traitement par lots global | Global-Standard | Global–Approvisionné | Standard | approvisionné |
---|---|---|---|---|---|
Idéale pour | Scoring hors connexion Charges de travail qui ne tiennent pas compte de la latence et qui peuvent être terminées en quelques heures. |
Point de départ recommandé pour les clients. Standard global a le quota par défaut plus élevé et un plus grand nombre de modèles disponibles que Standard. |
Scoring en temps réel pour un grand volume constant. Comprend les engagements et limites les plus élevés. | Pour les clients avec des besoins de résidence des données. Optimisé pour un volume bas à moyen. | Scoring en temps réel pour un grand volume constant. Comprend les engagements et limites les plus élevés. Pour les cas d’utilisation avec des exigences liées aux données |
Fonctionnement | Traitement hors connexion via des fichiers | Le trafic peut être acheminé n’importe où dans le monde | Le trafic peut être acheminé n’importe où dans le monde | ||
Bien démarrer | Traitement par lots global | Déploiement de modèle | Intégration approvisionnée | Déploiement de modèle | Intégration approvisionnée |
Cost | Option la moins chère 50 % de réduction par rapport aux prix Standard global. Accès à tous les nouveaux modèles avec des allocations de quota plus importantes. |
Tarification globale du déploiement | Peut permettre de faire des économies sur une utilisation constante | Tarification régionale | Peut permettre de faire des économies sur une utilisation constante |
Ce que vous obtenez | Remise importante par rapport à Standard global | Accès facile à tous les nouveaux modèles avec les limites de paiement par appel par défaut les plus élevées. Les clients qui utilisent un volume élevé peuvent noter une plus grande variabilité de la latence |
Accédez à un débit élevé et prévisible dans toute l’infrastructure globale Azure. Déterminer le débit par unité de débit approvisionnée (PTU) en utilisant la calculatrice de capacité fournie. | Accès facile avec un contrat SLA sur la disponibilité. Optimisé pour les charges de travail à volume bas ou moyen avec une rafale élevée. Les clients avec un volume élevé constant peuvent rencontrer une plus grande variabilité de la latence. |
Accès régional avec un débit très élevé et prévisible. Déterminer le débit par PTU à l’aide de la calculatrice de capacité fournie |
Ce que vous n’avez pas | ❌Performances d’appel en temps réel ❌Garantie de traitement de données Les données stockées au repos restent dans la géographie Azure désignée, mais le traitement des données pour inférence est possible dans n’importe quel emplacement Azure OpenAI. En savoir plus sur la résidence des données |
❌Garantie de traitement de données Les données stockées au repos restent dans la géographie Azure désignée, mais le traitement des données pour inférence est possible dans n’importe quel emplacement Azure OpenAI. En savoir plus sur la résidence des données |
❌Flexibilité du paiement par appel ❌Garantie de traitement de données Les données stockées au repos restent dans la géographie Azure désignée, mais le traitement des données pour inférence est possible dans n’importe quel emplacement Azure OpenAI. En savoir plus sur la résidence des données |
❌Volume élevé avec une latence faible constante | ❌Flexibilité du paiement par appel |
Latence par appel | Non applicable (processus asynchrone basé sur des fichiers) | Optimisé pour les appels en temps réel et l’utilisation de volume bas à moyen. Les clients qui utilisent un volume élevé peuvent noter une plus grande variabilité de la latence. Seuil défini par modèle | Optimisé pour les appels en temps réel et l’utilisation d’un volume élevé. | Optimisé pour les appels en temps réel et l’utilisation de volume bas à moyen. Les clients qui utilisent un volume élevé peuvent noter une plus grande variabilité de la latence. Seuil défini par modèle | Optimisé pour les appels en temps réel et l’utilisation d’un volume élevé. |
Nom de référence SKU dans le code | GlobalBatch |
GlobalStandard |
GlobalProvisionedManaged |
Standard |
ProvisionedManaged |
Modèle de facturation | Paiement par jeton | Paiement par jeton | Facturation horaire avec achat facultatif de réservations mensuelles ou annuelles | Paiement par jeton | Facturation horaire avec achat facultatif de réservations mensuelles ou annuelles |
approvisionné
Les déploiements approvisionnés vous permettent de spécifier la quantité de débit dont vous avez besoin dans un déploiement. Le service alloue ensuite la capacité de traitement du modèle nécessaire et garantit qu’elle est prête pour votre utilisation. Le débit est défini en termes d’unités de débit approvisionnées (PTU), ce qui est une façon normalisée de représenter le débit pour votre déploiement. Chaque paire modèle-version nécessite des quantités différentes de PTU afin de déployer et de fournir des quantités différentes de débit par PTU. Pour en savoir plus, consultez notre article sur les concepts du débit approvisionné.
Standard
Les déploiements standard fournissent un modèle de facturation de paiement par appel sur le modèle choisi. Fournit le moyen le plus rapide de commencer, car vous payez uniquement ce que vous consommez. Les modèles disponibles dans chaque région ainsi que le débit peuvent être limités.
Les déploiements standard sont optimisés pour les charges de travail à volume bas ou moyen avec une rafale élevée. Les clients avec un volume élevé constant peuvent rencontrer une plus grande variabilité de la latence.
Standard global
Important
Les données stockées au repos restent dans la géographie Azure désignée, mais le traitement des données pour inférence est possible dans n’importe quel emplacement Azure OpenAI. En savoir plus sur la résidence des données.
Les déploiements mondiaux sont disponibles dans les mêmes ressources Azure OpenAI que les types de déploiements non mondiaux, mais ils vous permettent de tirer parti de l’infrastructure mondiale d’Azure pour router dynamiquement le trafic vers le centre de données avec la meilleure disponibilité pour chaque requête. L’option Mondial Standard fournit le quota par défaut le plus élevé et élimine la nécessité d’équilibrer la charge entre plusieurs ressources.
Les clients avec un volume élevé constant peuvent rencontrer une plus grande variabilité de la latence. Le seuil est défini par modèle. Consultez la page des quotas pour en savoir plus. Pour les applications qui nécessitent une variation de latence moindre lors de l’utilisation de charges de travail importantes, nous vous recommandons d’acheter un débit approvisionné.
Approvisionné global
Important
Les données stockées au repos restent dans la géographie Azure désignée, mais le traitement des données pour inférence est possible dans n’importe quel emplacement Azure OpenAI. En savoir plus sur la résidence des données.
Les déploiements mondiaux sont disponibles dans les mêmes ressources Azure OpenAI que les types de déploiements non mondiaux, mais ils vous permettent de tirer parti de l’infrastructure mondiale d’Azure pour router dynamiquement le trafic vers le centre de données avec la meilleure disponibilité pour chaque requête. Les déploiements approvisionnés globaux fournissent une capacité de traitement de modèle réservée pour le débit élevé et prévisible en utilisant une infrastructure globale Azure.
Traitement par lots global
Important
Les données stockées au repos restent dans la géographie Azure désignée, mais le traitement des données pour inférence est possible dans n’importe quel emplacement Azure OpenAI. En savoir plus sur la résidence des données.
Le traitement par lots global est conçu pour gérer efficacement les tâches de traitement à grande échelle et à volume élevé. Traitez les groupes asynchrones de requêtes avec un quota distinct, avec un délai d’exécution cible de 24 heures, à un coût 50 % inférieur au type Standard global. Avec le traitement par lots, plutôt que d’envoyer une seule requête à la fois, vous envoyez un grand nombre de requêtes dans un seul fichier. Les requêtes de traitement par lots global ont un quota de jetons empilés distinct qui évite toute interruption de vos charges de travail en ligne.
Les principaux cas d’utilisation sont les suivants :
Traitement de données à grande échelle : analysez rapidement des jeux de données étendus en parallèle.
Génération de contenu : créez des volumes de texte importants, notamment des descriptions de produits ou des articles.
Révision et résumé de documents : automatisez la révision et le résumé de documents longs.
Automatisation du service clientèle : gérez simultanément de nombreuses requêtes pour obtenir des réponses plus rapides.
Extraction et analyse des données : extrayez et analysez des informations provenant de vastes quantités de données non structurées.
Tâches de traitement du langage naturel (NLP) : effectuez par exemple des tâches d’analyse des sentiments ou de traduction sur de grands jeux de données.
Marketing et personnalisation : générez du contenu et des suggestions personnalisés à grande échelle.
Comment désactiver l’accès aux déploiements mondiaux dans votre abonnement
Azure Policy aide à appliquer les normes organisationnelles et à évaluer la conformité à l’échelle. Avec son tableau de bord de conformité, il fournit une vue agrégée permettant d’évaluer l’état général de l’environnement, avec la possibilité d’explorer au niveau de chaque ressource et stratégie. Il vous aide également à mettre vos ressources en conformité par le biais de la correction en bloc pour les ressources existantes et de la correction automatique pour les nouvelles ressources. En savoir plus sur Azure Policy et les contrôles intégrés spécifiques pour les services d’IA.
Vous pouvez utiliser la stratégie suivante pour désactiver l’accès aux déploiements mondiaux standard Azure OpenAI. Pour désactiver l’accès aux déploiements par lots globaux ou approvisionnés globaux Azure, remplacez GlobalStandard
par GlobalProvisionedManaged
ou GlobalBatch
pour le nom de référence SKU prévue.
{
"mode": "All",
"policyRule": {
"if": {
"allOf": [
{
"field": "type",
"equals": "Microsoft.CognitiveServices/accounts/deployments"
},
{
"field": "Microsoft.CognitiveServices/accounts/deployments/sku.name",
"equals": "GlobalStandard"
}
]
}
}
}
Déployer des modèles
Pour découvrir la création de ressources et le déploiement de modèles, reportez-vous au guide de création de ressources.