Types de déploiement Azure OpenAI

Article
11/05/2024

Azure OpenAI permet aux clients de choisir la structure d’hébergement qui correspond à leurs modèles d’entreprise et d’utilisation. Le service propose deux principaux types de déploiements : standard et approvisionné. Pour un type de déploiement donné, les clients peuvent aligner leurs charges de travail avec leurs exigences de traitement des données en choisissant une des options de traitement Zone géographique Azure (Standard ou Provisioned), Zone de données spécifiée par Microsoft (DataZone-Standard) ou Global (Global-Standard ou Global Provisioned-Managed).

Tous les déploiements peuvent effectuer exactement les mêmes opérations d’inférence, mais la facturation, la mise à l’échelle et les performances sont sensiblement différentes. Dans le cadre de votre conception de solution, vous devez prendre deux décisions clés :

Emplacement du traitement des données
Volume d’appels

Emplacements de traitement des données de déploiement Azure OpenAI

Pour les déploiements standard, il existe trois options de type de déploiement à choisir : global, zone de données et zone géographique Azure. Pour les déploiements approvisionnés, il existe deux options de type de déploiement à choisir : global et zone géographique Azure. Global-Standard est le point de départ recommandé.

Les déploiements globaux tirent parti de l’infrastructure mondiale d’Azure pour acheminer dynamiquement le trafic client vers le centre de données avec la meilleure disponibilité pour les demandes d’inférence du client. Cela signifie que vous obtenez les limites de débit initiales les plus élevées et la meilleure disponibilité de modèle avec Global, tout en permettant de fournir notre contrat SLA de durée de bon fonctionnement et notre faible latence. Pour les charges de travail à volumes élevés au-dessus du niveau d’utilisation spécifié sur la norme standard et globale, vous pouvez rencontrer des variations de latence accrues. Pour les clients qui nécessitent une variation de latence moindre lors de l’utilisation de charges de travail importantes, nous vous recommandons de tirer parti de nos types de déploiements approvisionnés.

Nos déploiements mondiaux conviennent parfaitement à tous les nouveaux modèles et toutes les nouvelles fonctionnalités. Selon le volume d’appels, les clients avec des exigences de variation de volume et de faible latence devraient considérer nos types de déploiement approvisionnés.

Les déploiements de zone de données tirent parti de l’infrastructure globale d’Azure pour acheminer dynamiquement le trafic client vers le centre de données avec la meilleure disponibilité pour les demandes d’inférence du client, au sein de la zone de données définie par Microsoft. Situés entre nos offres de déploiement de zone géographique Azure et global, les déploiements de zones de données fournissent des limites de quota élevées tout en conservant le traitement des données dans la zone de données spécifiée par Microsoft. Les données stockées au repos continueront de rester dans la zone géographique de la ressource Azure OpenAI (par exemple, la zone géographique Azure est la Suède pour une ressource Azure OpenAI créée dans la région Azure centre de Suède).

Si la ressource Azure OpenAI utilisée dans votre déploiement de zone de données se trouve aux États-Unis, les données seront traitées aux États-Unis. Si la ressource Azure OpenAI utilisée dans votre déploiement de zone de données se trouve dans une nation membre de l’Union européenne, les données seront traitées dans les zones géographiques de la nation membre de l’Union européenne. Pour tous les types de déploiement de service Azure OpenAI, toutes les données stockées au repos continueront de rester dans la zone géographique de la ressource Azure OpenAI. Les engagements de traitement et de conformité des données Azure restent applicables.

Types de déploiement

Azure OpenAI offre trois types de déploiements. Ceux-ci fournissent un niveau varié de fonctionnalités qui offrent des compromis sur le débit, les contrats SLA et le prix. Vous trouverez ci-dessous un résumé des options, suivi d’une description plus détaillée de chacune d’elles.

Offre	Traitement par lots global	Global-Standard	Global–Approvisionné	Standard	approvisionné
Idéale pour	Scoring hors connexion Charges de travail qui ne tiennent pas compte de la latence et qui peuvent être terminées en quelques heures.	Point de départ recommandé pour les clients. Standard global a le quota par défaut plus élevé et un plus grand nombre de modèles disponibles que Standard.	Scoring en temps réel pour un grand volume constant. Comprend les engagements et limites les plus élevés.	Pour les clients avec des besoins de résidence des données. Optimisé pour un volume bas à moyen.	Scoring en temps réel pour un grand volume constant. Comprend les engagements et limites les plus élevés. Pour les cas d’utilisation avec des exigences liées aux données
Fonctionnement	Traitement hors connexion via des fichiers	Le trafic peut être acheminé n’importe où dans le monde	Le trafic peut être acheminé n’importe où dans le monde
Bien démarrer	Traitement par lots global	Déploiement de modèle	Intégration approvisionnée	Déploiement de modèle	Intégration approvisionnée
Cost	Option la moins chère 50 % de réduction par rapport aux prix Standard global. Accès à tous les nouveaux modèles avec des allocations de quota plus importantes.	Tarification globale du déploiement	Peut permettre de faire des économies sur une utilisation constante	Tarification régionale	Peut permettre de faire des économies sur une utilisation constante
Ce que vous obtenez	Remise importante par rapport à Standard global	Accès facile à tous les nouveaux modèles avec les limites de paiement par appel par défaut les plus élevées. Les clients qui utilisent un volume élevé peuvent noter une plus grande variabilité de la latence	Accédez à un débit élevé et prévisible dans toute l’infrastructure globale Azure. Déterminer le débit par unité de débit approvisionnée (PTU) en utilisant la calculatrice de capacité fournie.	Accès facile avec un contrat SLA sur la disponibilité. Optimisé pour les charges de travail à volume bas ou moyen avec une rafale élevée. Les clients avec un volume élevé constant peuvent rencontrer une plus grande variabilité de la latence.	Accès régional avec un débit très élevé et prévisible. Déterminer le débit par PTU à l’aide de la calculatrice de capacité fournie
Ce que vous n’avez pas	❌Performances d’appel en temps réel ❌Garantie de traitement de données Les données stockées au repos restent dans la géographie Azure désignée, mais le traitement des données pour inférence est possible dans n’importe quel emplacement Azure OpenAI. En savoir plus sur la résidence des données	❌Garantie de traitement de données Les données stockées au repos restent dans la géographie Azure désignée, mais le traitement des données pour inférence est possible dans n’importe quel emplacement Azure OpenAI. En savoir plus sur la résidence des données	❌Flexibilité du paiement par appel ❌Garantie de traitement de données Les données stockées au repos restent dans la géographie Azure désignée, mais le traitement des données pour inférence est possible dans n’importe quel emplacement Azure OpenAI. En savoir plus sur la résidence des données	❌Volume élevé avec une latence faible constante	❌Flexibilité du paiement par appel
Latence par appel	Non applicable (processus asynchrone basé sur des fichiers)	Optimisé pour les appels en temps réel et l’utilisation de volume bas à moyen. Les clients qui utilisent un volume élevé peuvent noter une plus grande variabilité de la latence. Seuil défini par modèle	Optimisé pour les appels en temps réel et l’utilisation d’un volume élevé.	Optimisé pour les appels en temps réel et l’utilisation de volume bas à moyen. Les clients qui utilisent un volume élevé peuvent noter une plus grande variabilité de la latence. Seuil défini par modèle	Optimisé pour les appels en temps réel et l’utilisation d’un volume élevé.
Nom de référence SKU dans le code	`GlobalBatch`	`GlobalStandard`	`GlobalProvisionedManaged`	`Standard`	`ProvisionedManaged`
Modèle de facturation	Paiement par jeton	Paiement par jeton	Facturation horaire avec achat facultatif de réservations mensuelles ou annuelles	Paiement par jeton	Facturation horaire avec achat facultatif de réservations mensuelles ou annuelles

Standard global

Important

Les données stockées au repos restent dans la géographie Azure désignée, mais le traitement des données pour inférence est possible dans n’importe quel emplacement Azure OpenAI. En savoir plus sur la résidence des données.

Les déploiements mondiaux sont disponibles dans les mêmes ressources Azure OpenAI que les types de déploiements non mondiaux, mais ils vous permettent de tirer parti de l’infrastructure mondiale d’Azure pour router dynamiquement le trafic vers le centre de données avec la meilleure disponibilité pour chaque requête. L’option Mondial Standard fournit le quota par défaut le plus élevé et élimine la nécessité d’équilibrer la charge entre plusieurs ressources.

Les clients avec un volume élevé constant peuvent rencontrer une plus grande variabilité de la latence. Le seuil est défini par modèle. Consultez la page des quotas pour en savoir plus. Pour les applications qui nécessitent une variation de latence moindre lors de l’utilisation de charges de travail importantes, nous vous recommandons d’acheter un débit approvisionné.

Approvisionné global

Important

Les déploiements mondiaux sont disponibles dans les mêmes ressources Azure OpenAI que les types de déploiements non mondiaux, mais ils vous permettent de tirer parti de l’infrastructure mondiale d’Azure pour router dynamiquement le trafic vers le centre de données avec la meilleure disponibilité pour chaque requête. Les déploiements approvisionnés globaux fournissent une capacité de traitement de modèle réservée pour le débit élevé et prévisible en utilisant une infrastructure globale Azure.

Traitement par lots global

Important

Le traitement par lots global est conçu pour gérer efficacement les tâches de traitement à grande échelle et à volume élevé. Traitez les groupes asynchrones de requêtes avec un quota distinct, avec un délai d’exécution cible de 24 heures, à un coût 50 % inférieur au type Standard global. Avec le traitement par lots, plutôt que d’envoyer une seule requête à la fois, vous envoyez un grand nombre de requêtes dans un seul fichier. Les requêtes de traitement par lots global ont un quota de jetons empilés distinct qui évite toute interruption de vos charges de travail en ligne.

Les principaux cas d’utilisation sont les suivants :

Traitement de données à grande échelle : analysez rapidement des jeux de données étendus en parallèle.
Génération de contenu : créez des volumes de texte importants, notamment des descriptions de produits ou des articles.
Révision et résumé de documents : automatisez la révision et le résumé de documents longs.
Automatisation du service clientèle : gérez simultanément de nombreuses requêtes pour obtenir des réponses plus rapides.
Extraction et analyse des données : extrayez et analysez des informations provenant de vastes quantités de données non structurées.
Tâches de traitement du langage naturel (NLP) : effectuez par exemple des tâches d’analyse des sentiments ou de traduction sur de grands jeux de données.
Marketing et personnalisation : générez du contenu et des suggestions personnalisés à grande échelle.

Standard de zone de données

Important

Les déploiements Standard de zone de données sont disponibles dans la même ressource Azure OpenAI que tous les autres types de déploiement Azure OpenAI, mais vous permettent de profiter de l’infrastructure globale Azure pour acheminer dynamiquement le trafic vers le centre de données au sein de la zone de données définie par Microsoft avec la meilleure disponibilité pour chaque requête. Standard de zone de données fournit des quotas par défaut plus élevés que nos types de déploiement basés sur la zone géographique Azure.

Les clients avec un volume élevé constant peuvent rencontrer une plus grande variabilité de la latence. Le seuil est défini par modèle. Consultez la page Quotas et limites pour en savoir plus. Pour les charges de travail qui nécessitent une variation de faible latence à un niveau du volume important, nous vous recommandons d’exploiter les offres de déploiement approvisionnées.

Standard

Les déploiements standard fournissent un modèle de facturation de paiement par appel sur le modèle choisi. Fournit le moyen le plus rapide de commencer, car vous payez uniquement ce que vous consommez. Les modèles disponibles dans chaque région ainsi que le débit peuvent être limités.

Les déploiements standard sont optimisés pour les charges de travail à volume bas ou moyen avec une rafale élevée. Les clients avec un volume élevé constant peuvent rencontrer une plus grande variabilité de la latence.

approvisionné

Les déploiements approvisionnés vous permettent de spécifier la quantité de débit dont vous avez besoin dans un déploiement. Le service alloue ensuite la capacité de traitement du modèle nécessaire et garantit qu’elle est prête pour votre utilisation. Le débit est défini en termes d’unités de débit approvisionnées (PTU), ce qui est une façon normalisée de représenter le débit pour votre déploiement. Chaque paire modèle-version nécessite des quantités différentes de PTU afin de déployer et de fournir des quantités différentes de débit par PTU. Pour en savoir plus, consultez notre article sur les concepts du débit approvisionné.

Comment désactiver l’accès aux déploiements mondiaux dans votre abonnement

Azure Policy aide à appliquer les normes organisationnelles et à évaluer la conformité à l’échelle. Avec son tableau de bord de conformité, il fournit une vue agrégée permettant d’évaluer l’état général de l’environnement, avec la possibilité d’explorer au niveau de chaque ressource et stratégie. Il vous aide également à mettre vos ressources en conformité par le biais de la correction en bloc pour les ressources existantes et de la correction automatique pour les nouvelles ressources. En savoir plus sur Azure Policy et les contrôles intégrés spécifiques pour les services d’IA.

Vous pouvez utiliser la stratégie suivante pour désactiver l’accès aux déploiements mondiaux standard Azure OpenAI. Pour désactiver l’accès aux déploiements par lots globaux ou approvisionnés globaux Azure, remplacez GlobalStandard par GlobalProvisionedManaged ou GlobalBatch pour le nom de référence SKU prévue.

{
    "mode": "All",
    "policyRule": {
        "if": {
            "allOf": [
                {
                    "field": "type",
                    "equals": "Microsoft.CognitiveServices/accounts/deployments"
                },
                {
                    "field": "Microsoft.CognitiveServices/accounts/deployments/sku.name",
                    "equals": "GlobalStandard"
                }
            ]
        }
    }
}

Déployer des modèles

Pour découvrir la création de ressources et le déploiement de modèles, reportez-vous au guide de création de ressources.

Partager via

Types de déploiement Azure OpenAI

Emplacements de traitement des données de déploiement Azure OpenAI

Types de déploiement

Standard global

Approvisionné global

Traitement par lots global

Standard de zone de données

Standard

approvisionné

Comment désactiver l’accès aux déploiements mondiaux dans votre abonnement

Déployer des modèles

Voir aussi

Commentaires

Ressources supplémentaires