Freigeben über


Azure OpenAI-Bereitstellungstypen

Azure OpenAI bietet Kunden Auswahlmöglichkeiten bei der Hostingstruktur, die ihren Geschäfts- und Nutzungsmustern entspricht. Der Dienst bietet zwei Haupttypen der Bereitstellung: Standard und Bereitgestellt. Standard wird mit einer globalen Bereitstellungsoption angeboten und leitet den Datenverkehr global weiter, um einen höheren Durchsatz zu bieten. Die Bereitstellung wird auch mit einer globalen Bereitstellungsoption angeboten, sodass Kunden bereitgestellte Durchsatzeinheiten in der globalen Azure-Infrastruktur erwerben und bereitstellen können. Alle Bereitstellungen können dieselben Rückschlussvorgänge ausführen, Abrechnung, Skalierung und Leistung unterscheiden sich jedoch erheblich. Im Rahmen Ihres Lösungsdesigns müssen Sie zwei wichtige Entscheidungen treffen:

  • Anforderungen an die Datenresidenz: globale oder regionale Ressourcen
  • Aufrufvolumen: Standard oder bereitgestellt

Globale oder regionale Bereitstellungstypen

Für Standard- und bereitgestellte Bereitstellungen können Sie zwei Arten von Konfigurationen innerhalb Ihrer Ressource verwenden: global oder regional. Der globale Standard ist der empfohlene Ausgangspunkt.

Globale Bereitstellungen nutzen die globale Azure-Infrastruktur und leiten den Kundendatenverkehr dynamisch an das Rechenzentrum weiter, das die beste Verfügbarkeit für die Rückschlussanforderungen des Kunden bietet. Dies bedeutet, dass Sie die höchsten Grenzwerte für den anfänglichen Durchsatz und die beste Modellverfügbarkeit mit Global erhalten, während Sie gleichzeitig von unsere Uptime-SLA und niedrigen Latenzzeiten profitieren können. Bei Workloads mit hohem Volumen, die über die angegebenen Nutzungsebenen von Standard und Global Standard hinausgehen, können erhöhte Latenzschwankungen auftreten. Für Kunden, die die geringere Wartezeitvarianz bei einer hohen Workloadnutzung erfordern, empfehlen wir den Kauf des bereitgestellten Durchsatzes.

Unsere globalen Bereitstellungen sind der erste Ort für alle neuen Modelle und Features. Kunden mit sehr großen Durchsatzanforderungen sollten unser bereitgestelltes Bereitstellungsangebot erwägen.

Bereitstellungstypen

Azure OpenAI bietet drei Arten von Bereitstellungen. Diese bieten eine Vielzahl von Funktionen, die Abstriche bei Durchsatz, SLAs und Preis bedeuten. Nachfolgend finden Sie eine Zusammenfassung der Optionen, gefolgt von einer genaueren Beschreibung der einzelnen Optionen.

Angebot Global-Batch Global-Standard Global bereitgestellt Standard Bereitgestellt
Am besten geeignet für Offlinebewertung

Workloads, die nicht latenzempfindlich sind und in Stunden abgeschlossen werden können.

Für Anwendungsfälle, die bei der Datenverarbeitung keine Datenresidenzanforderungen haben.
Empfohlener Ausgangspunkt für Kunden.

„Global-Standard“ hat ein höheres Standardkontingent und eine größere Anzahl von verfügbaren Modellen als „Standard“.
Echtzeitbewertung für großes konsistentes Volumen. Umfasst die höchsten Zusagen und Grenzwerte. Für Anwendungsfälle ohne Datenresidenzanforderungen. Für Kunden mit Anforderungen an Datenresidenz. Optimiert für geringes bis mittleres Volumen. Echtzeitbewertung für großes konsistentes Volumen. Umfasst die höchsten Zusagen und Grenzwerte. Für Anwendungsfälle mit Datenresidenzanforderungen
So funktioniert's Offlineverarbeitung über Dateien Datenverkehr kann an beliebige Orte weltweit weitergeleitet werden. Datenverkehr kann an beliebige Orte weltweit weitergeleitet werden.
Erste Schritte Global-Batch Modellimplementierung Bereitgestelltes Onboarding Modellimplementierung Bereitgestelltes Onboarding
Kosten Die günstigste Option
50 % weniger Kosten im Vergleich zu den Preisen für „Global-Standard“. Zugriff auf alle neuen Modelle mit größeren Kontingentzuweisungen.
Globale Bereitstellungskosten Kosteneinsparungen für eine konsistente Nutzung sind möglich. Regionale Kosten Kosteneinsparungen für eine konsistente Nutzung sind möglich.
Ergebnis Signifikanter Rabatt im Vergleich mit „Global-Standard“ Einfacher Zugriff auf alle neuen Modelle mit den höchsten Standardgrenzwerten für die Bezahlung pro Aufruf.

Kunden mit umfangreicher Nutzung können eine höhere Variabilität bei der Wartezeit erleben.
Zugriff auf hohen und vorhersehbaren Durchsatz in der globalen Azure-Infrastruktur. Ermitteln Sie den Durchsatz pro PTU mithilfe des bereitgestellten Kapazitätsrechners. Einfacher Zugriff mit SLA zur Verfügbarkeit. Optimiert für Workloads mit geringem bis mittlerem Volumen mit hoher Burstartigkeit.

Kunden mit hohem konsistenten Volumen können eine größere Variabilität bei der Wartezeit erleben.
Regionaler Zugriff mit sehr hohem und vorhersehbarem Durchsatz. Ermitteln des Durchsatzes pro PTU mithilfe des bereitgestellten Kapazitätsrechners
Was Sie nicht erhalten ❌Echtzeitanrufleistung

❌Datenverarbeitungsgarantie

Ruhende Daten verbleiben in der angegebenen Azure-Geografie, während Daten für Rückschlüsse möglicherweise an einem beliebigen Azure OpenAI-Standort verarbeitet werden. Erfahren Sie mehr über Data Residency
❌Datenverarbeitungsgarantie

Ruhende Daten verbleiben in der angegebenen Azure-Geografie, während Daten für Rückschlüsse möglicherweise an einem beliebigen Azure OpenAI-Standort verarbeitet werden. Erfahren Sie mehr über Data Residency
❌ Flexibilität bei der Bezahlung pro Aufruf

❌Datenverarbeitungsgarantie

Ruhende Daten verbleiben in der angegebenen Azure-Geografie, während Daten für Rückschlüsse möglicherweise an einem beliebigen Azure OpenAI-Standort verarbeitet werden. Erfahren Sie mehr über Data Residency
❌ Hohes Volumen mit konsistent niedriger Wartezeit ❌ Flexibilität bei der Bezahlung pro Aufruf
Wartezeit pro Aufruf Nicht anwendbar (dateibasierter asynchroner Prozess) Optimiert für Echtzeitanrufe und Nutzung mit niedrigem bis mittlerem Volumen. Kunden mit umfangreicher Nutzung können eine höhere Variabilität bei der Wartezeit erleben. Pro Modell festgelegter Schwellenwert Optimiert für Echtzeitanrufe und hohe Volumennutzung. Optimiert für Echtzeitanrufe und Nutzung mit niedrigem bis mittlerem Volumen. Kunden mit umfangreicher Nutzung können eine höhere Variabilität bei der Wartezeit erleben. Pro Modell festgelegter Schwellenwert Optimiert für Echtzeitanrufe und hohe Volumennutzung.
SKU-Name im Code GlobalBatch GlobalStandard GlobalProvisionedManaged Standard ProvisionedManaged
Abrechnungsmodell Pay-per-Token Pay-per-Token Stündliche Abrechnung mit optionalem Kauf monatlicher oder jährlicher Reservierungen Pay-per-Token Stündliche Abrechnung mit optionalem Kauf monatlicher oder jährlicher Reservierungen

Bereitgestellt

Mit bereitgestellten Bereitstellungen können Sie den in einer Bereitstellung erforderlichen Durchsatz angeben. Der Dienst weist daraufhin die erforderliche Modellverarbeitungskapazität zu und stellt sicher, dass diese für Sie bereit ist. Der Durchsatz wird als bereitgestellte Durchsatzeinheiten (Provisioned Throughput Units, PTUs) definiert. Dabei handelt es sich um eine normalisierte Methode zur Darstellung des Durchsatzes für Ihre Bereitstellung. Jedes Modellversionspaar benötigt unterschiedliche PTU-Mengen, um unterschiedliche Durchsatzmengen pro PTU bereitzustellen. Weitere Informationen finden Sie in unserem Artikel zu Konzepten für bereitgestellten Durchsatz.

Standard

Standardbereitstellungen bieten ein Abrechnungsmodell für die Bezahlung pro Aufruf für das ausgewählte Modell. Bietet die schnellste Möglichkeit loszulegen, da Sie nur für das bezahlen, was Sie verbrauchen. Modelle, die in den einzelnen Regionen verfügbar sind, sowie der Durchsatz können beschränkt sein.

Standardbereitstellungen sind für Workloads mit geringem bis mittlerem Volumen mit hoher Burstartigkeit optimiert. Kunden mit hohem konsistenten Volumen können eine größere Variabilität bei der Wartezeit erleben.

Globaler Standard

Wichtig

Ruhende Daten verbleiben in der angegebenen Azure-Geografie, während Daten für Rückschlüsse möglicherweise an einem beliebigen Azure OpenAI-Standort verarbeitet werden. Erfahren Sie mehr über Data Residency.

Globale Bereitstellungen stehen in denselben Azure OpenAI-Ressourcen zur Verfügung wie nicht globale Bereitstellungstypen, ermöglichen es Ihnen jedoch, die globale Infrastruktur von Azure zu nutzen, um den Datenverkehr dynamisch an das Rechenzentrum mit der besten Verfügbarkeit für jede Anforderung weiterzuleiten. Der globale Standard stellt das höchste Standardkontingent bereit und beseitigt die Notwendigkeit des Lastenausgleichs über mehrere Ressourcen hinweg.

Kunden mit hohem konsistenten Volumen können eine größere Variabilität bei der Wartezeit erleben. Der Schwellenwert wird pro Modell festgelegt. Weitere Informationen finden Sie auf der Seite zu Kontingenten. Für Kunden, die eine geringere Wartezeitvarianz bei einer hohen Workloadnutzung erfordern, empfehlen wir den Kauf des bereitgestellten Durchsatzes.

Global bereitgestellt

Wichtig

Ruhende Daten verbleiben in der angegebenen Azure-Geografie, während Daten für Rückschlüsse möglicherweise an einem beliebigen Azure OpenAI-Standort verarbeitet werden. Erfahren Sie mehr über Data Residency.

Globale Bereitstellungen stehen in denselben Azure OpenAI-Ressourcen zur Verfügung wie nicht globale Bereitstellungstypen, ermöglichen es Ihnen jedoch, die globale Infrastruktur von Azure zu nutzen, um den Datenverkehr dynamisch an das Rechenzentrum mit der besten Verfügbarkeit für jede Anforderung weiterzuleiten. Globale bereitgestellte Bereitstellungen bieten reservierte Modellverarbeitungskapazität für hohen und vorhersehbaren Durchsatz mithilfe der globalen Azure-Infrastruktur.

Global-Batch

Wichtig

Ruhende Daten verbleiben in der angegebenen Azure-Geografie, während Daten für Rückschlüsse möglicherweise an einem beliebigen Azure OpenAI-Standort verarbeitet werden. Erfahren Sie mehr über Data Residency.

Global-Batch ist darauf ausgelegt, umfangreiche Verarbeitungsaufgaben mit hohem Volumen effizient zu verarbeiten. Verarbeiten Sie asynchrone Anforderungsgruppen mit separatem Kontingent mit einer angestrebten Verarbeitungszeit von 24 Stunden zu 50 % weniger Kosten als bei „Global-Standard“. Bei der Stapelverarbeitung senden Sie die einzelnen Anforderungen nicht nacheinander, sondern Sie senden eine große Anzahl von Anforderungen in einer einzelnen Datei. Globale Batchanforderungen verfügen über ein separates Tokenkontingent, das in die Warteschlange eingereiht wird, um Unterbrechungen Ihrer Onlineworkloads zu vermeiden.

Wichtige Anwendungsfälle:

  • Umfangreiche Datenverarbeitung: Analysieren Sie schnell umfangreiche Datasets parallel.

  • Inhaltsgenerierung: Erstellen Sie große Textmengen, z. B. Produktbeschreibungen oder Artikel.

  • Dokumentüberprüfung und Zusammenfassung: Automatisieren Sie die Überprüfung und Zusammenfassung von umfangreichen Dokumenten.

  • Automatisierung des Kundendiensts: Verarbeiten Sie zahlreiche Anfragen gleichzeitig für schnellere Antworten.

  • Datenextraktion und -analyse: Extrahieren und analysieren Sie Informationen aus großen Mengen unstrukturierter Daten.

  • NLP-Aufgaben (Natural Language Processing, Verarbeitung natürlicher Sprache): Führen Sie Aufgaben wie Stimmungsanalyse oder Übersetzung für große Datasets aus.

  • Marketing und Personalisierung: Generieren Sie personalisierte Inhalte und Empfehlungen im großen Stil.

Deaktivieren des Zugriffs auf globale Bereitstellungen in Ihrem Abonnement

Azure Policy hilft bei der Durchsetzung von Organisationsstandards und bei der Bewertung der Compliance nach Bedarf. Über sein Compliance-Dashboard bietet der Dienst eine aggregierte Ansicht zur Bewertung des Gesamtzustands der Umgebung mit der Möglichkeit, einen Drilldown zur Granularität pro Ressource und Richtlinie durchzuführen. Außerdem trägt er durch Massenwartung für vorhandene Ressourcen und automatische Wartung dazu bei, dass Ihre Ressourcen Compliance-Anforderungen erfüllen. Erfahren Sie mehr über Azure Policy und bestimmte integrierte Steuerelemente für KI-Dienste.

Sie können die folgende Richtlinie verwenden, um den Zugriff auf globale Azure OpenAI-Standardbereitstellungen zu deaktivieren. Ersetzen Sie zum Deaktivieren des Zugriffs auf global bereitgestellte Bereitstellungen von Azure oder globalen Batchbereitstellungen GlobalStandard durch GlobalProvisionedManaged oder GlobalBatch für den gewünschten SKU-Namen.

{
    "mode": "All",
    "policyRule": {
        "if": {
            "allOf": [
                {
                    "field": "type",
                    "equals": "Microsoft.CognitiveServices/accounts/deployments"
                },
                {
                    "field": "Microsoft.CognitiveServices/accounts/deployments/sku.name",
                    "equals": "GlobalStandard"
                }
            ]
        }
    }
}

Bereitstellen von Modellen

Screenshot des Dialogfelds „Modellimplementierung“ in Azure OpenAI Studio mit den hervorgehobenen drei Bereitstellungstypen.

Informationen zum Erstellen von Ressourcen und Bereitstellen von Modellen finden Sie in der Anleitung zum Erstellen von Ressourcen.

Weitere Informationen