Creare una distribuzione di OpenAI di Azure
OpenAI di Azure offre ai clienti opzioni per la struttura di hosting che si adattano ai criteri di business e di utilizzo. Il servizio offre due tipi principali di distribuzioni: standard e con provisioning. Per un determinato tipo di distribuzione, i clienti possono allineare i carichi di lavoro ai requisiti di elaborazione dei dati scegliendo un'area dati di Azure (Standard
o Provisioned
), l'area dati specificata da Microsoft (DataZone-Standard
) o le opzioni di elaborazione Globale (Global-Standard
o Global Provisioned-Managed
).
Tutte le distribuzioni possono eseguire esattamente le stesse operazioni di inferenza, ma la fatturazione, la scalabilità e le prestazioni sono sostanzialmente diverse. Come parte della progettazione della soluzione, è necessario prendere due decisioni chiave:
- Posizione per l'elaborazione dati
- Volume di chiamata
Percorsi di elaborazione dei dati di distribuzione OpenAI di Azure
Per le distribuzioni standard, sono disponibili tre opzioni per il tipo di distribuzione tra cui scegliere: globale, zona dati e area geografica di Azure. Per le distribuzioni di cui è stato effettuato il provisioning, sono disponibili due opzioni per il tipo di distribuzione tra cui scegliere: globale e area geografica di Azure. Lo standard globale è il punto di partenza consigliato.
Le distribuzioni globali sfruttano l'infrastruttura globale di Azure per instradare dinamicamente il traffico dei clienti al data center con la migliore disponibilità per le richieste di inferenza del cliente. Ciò significa che si otterranno i limiti di velocità effettiva iniziali più elevati e la migliore disponibilità dei modelli con Globale pur continuando a usufruire del contratto di servizio per il tempo di attività e la bassa latenza. Per carichi di lavoro con volumi elevati superiori ai livelli di utilizzo specificati in Standard e Standard globale, è possibile che la variazione della latenza risulti maggiore. Per i clienti che richiedono la varianza di latenza inferiore a un utilizzo elevato del carico di lavoro, è consigliabile sfruttare i tipi di distribuzione di cui è stato effettuato il provisioning.
Le distribuzioni globali saranno la prima posizione per tutti i nuovi modelli e funzionalità. A seconda del volume delle chiamate, i clienti con volumi elevati e requisiti di varianza a bassa latenza devono considerare i tipi di distribuzione di cui è stato effettuato il provisioning.
Le distribuzioni della zona dati sfruttano l'infrastruttura globale di Azure per instradare dinamicamente il traffico dei clienti al data center con la migliore disponibilità per le richieste di inferenza del cliente all'interno dell'area dati definita da Microsoft. Posizionati tra le offerte di distribuzione geografica di Azure e globale, le distribuzioni di zone dati offrono limiti di quota elevati mantenendo al tempo stesso l'elaborazione dei dati all'interno dell'area dati specificata da Microsoft. I dati archiviati inattivi continueranno a rimanere nella geografia della risorsa OpenAI di Azure( ad esempio, per una risorsa OpenAI di Azure creata nell'area di Azure centrale svezia, l'area geografica di Azure di Azure è Svezia).
Se la risorsa OpenAI di Azure usata nella distribuzione dell'area dati si trova nella Stati Uniti, i dati verranno elaborati all'interno del Stati Uniti. Se la risorsa OpenAI di Azure usata nella distribuzione della zona dati si trova in una nazione membro dell'Unione europea, i dati verranno elaborati all'interno delle aree geografiche nazione membro dell'Unione europea. Per tutti i tipi di distribuzione del servizio OpenAI di Azure, tutti i dati archiviati inattivi continueranno a rimanere nella geografia della risorsa OpenAI di Azure. Gli impegni di elaborazione e conformità dei dati di Azure rimangono applicabili.
Per qualsiasi tipo di distribuzione con etichetta "Globale", le richieste e le risposte possono essere elaborate in qualsiasi area geografica in cui viene distribuito il modello OpenAI di Azure pertinente (altre informazioni sulla disponibilità dell'area dei modelli). Per qualsiasi tipo di distribuzione etichettato come "DataZone", le richieste e le risposte possono essere elaborate in qualsiasi area geografica all'interno della zona dati specificata, come definito da Microsoft. Se si crea una distribuzione di DataZone in una risorsa OpenAI di Azure che si trova nella Stati Uniti, è possibile elaborare richieste e risposte ovunque all'interno del Stati Uniti. Se si crea una distribuzione di DataZone in una risorsa OpenAI di Azure che si trova in una nazione membro dell'Unione europea, è possibile elaborare richieste e risposte in tale paese o in qualsiasi altra nazione membro dell'Unione europea. Per i tipi di distribuzione Global e DataZone, tutti i dati archiviati inattivi, ad esempio i dati caricati, vengono archiviati nell'area geografica designata dal cliente. Solo la posizione di elaborazione è interessata quando un cliente usa un tipo di distribuzione globale o un tipo di distribuzione DataZone nel servizio Azure OpenAI; Gli impegni di elaborazione e conformità dei dati di Azure rimangono applicabili.
Tipi distribuzione
OpenAI di Azure offre tre tipi di distribuzioni. Questi offrono vari livelli di funzionalità che comportano compromessi su velocità effettiva, contratti di servizio e prezzo. Di seguito è riportato un riepilogo delle opzioni, seguito da una descrizione più approfondita di ognuna.
Offerta | Global-Batch | Standard globale | Con provisioning globale | Standard | Provisioning eseguito |
---|---|---|---|---|---|
Ideale per | Assegnazione dei punteggi offline I carichi di lavoro che non sono sensibili alla latenza e possono essere completati in ore. |
Punto di partenza consigliato per i clienti. Global-Standard avrà la quota predefinita più elevata e un numero maggiore di modelli disponibili rispetto a Standard. |
Assegnazione dei punteggi in tempo reale per volumi coerenti di grandi dimensioni. Include gli impegni e i limiti più elevati. | Per i clienti con requisiti di residenza dei dati. Ottimizzato per un volume da basso a medio. | Assegnazione dei punteggi in tempo reale per volumi coerenti di grandi dimensioni. Include gli impegni e i limiti più elevati. Per i casi d’uso che prevedono requisiti di residenza dei dati |
Funzionamento | Elaborazione offline tramite file | Il traffico può essere instradato ovunque nel mondo | Il traffico può essere instradato ovunque nel mondo | ||
Informazioni generali | Global-Batch | Distribuzione di modelli | Onboarding con provisioning | Distribuzione di modelli | Onboarding con provisioning |
Costii | Opzione meno costosa Costo inferiore del 50% rispetto ai prezzi standard globali. Accesso a tutti i nuovi modelli con allocazioni di quote maggiori. |
Prezzi della distribuzione globale | Può verificarsi un risparmio sui costi per un utilizzo costante | Prezzi a livello di area | Può verificarsi un risparmio sui costi per un utilizzo costante |
Cosa si ottiene | Sconto significativo rispetto allo standard globale | Accesso semplice a tutti i nuovi modelli con i limiti di pagamento per chiamata predefiniti più elevati. I clienti con un utilizzo elevato del volume possono rilevare una variabilità di latenza più elevata |
Accesso a una velocità effettiva elevata e prevedibile nell'infrastruttura globale di Azure. Determinare la velocità effettiva per le unità elaborate con provisioning usando il calcolatore della capacità fornito. | Contratto di servizio per la disponibilità. Ottimizzato per carichi di lavoro con volumi da bassi a medi con possibilità di burst elevata. I clienti con un volume costante elevato possono riscontrare una maggiore variabilità della latenza. |
Accesso a livello di area con velocità effettiva molto elevata e prevedibile. Determinare la velocità effettiva per PTU usando il calcolatore della capacità fornito |
Cosa non si ottiene | ❌Prestazioni delle chiamate in tempo reale ❌Garanzia di elaborazione dei dati I dati archiviati inattivi rimangono nell'area geografica di Azure designata, mentre i dati possono essere elaborati per l'inferenza in qualsiasi posizione di OpenAI di Azure. Altre informazioni sulla residenza dei dati |
❌Garanzia di elaborazione dei dati I dati archiviati inattivi rimangono nell'area geografica di Azure designata, mentre i dati possono essere elaborati per l'inferenza in qualsiasi posizione di OpenAI di Azure. Altre informazioni sulla residenza dei dati |
❌Flessibilità con pagamento in base alla chiamata ❌Garanzia di elaborazione dei dati I dati archiviati inattivi rimangono nell'area geografica di Azure designata, mentre i dati possono essere elaborati per l'inferenza in qualsiasi posizione di OpenAI di Azure. Altre informazioni sulla residenza dei dati |
❌Un volume elevato con bassa latenza costante | ❌Flessibilità con pagamento in base alla chiamata |
Latenza per chiamata | Non applicabile (processo asincrono basato su file) | Ottimizzato per le chiamate in tempo reale e l'utilizzo da basso a medio del volume. I clienti con un utilizzo elevato del volume possono rilevare una variabilità di latenza più elevata. Soglia impostata per modello | Ottimizzato per le chiamate in tempo reale e l'utilizzo ad alto volume. | Ottimizzato per le chiamate in tempo reale e l'utilizzo da basso a medio del volume. I clienti con un utilizzo elevato del volume possono rilevare una variabilità di latenza più elevata. Soglia impostata per modello | Ottimizzato per le chiamate in tempo reale e l'utilizzo ad alto volume. |
Nome SKU nel codice | GlobalBatch |
GlobalStandard |
GlobalProvisionedManaged |
Standard |
ProvisionedManaged |
Modello di fatturazione | Pagamento in base al token | Pagamento in base al token | Fatturazione oraria con acquisto facoltativo di prenotazioni mensili o annuali | Pagamento in base al token | Fatturazione oraria con acquisto facoltativo di prenotazioni mensili o annuali |
Standard globale
Importante
I dati archiviati inattivi rimangono nell'area geografica di Azure designata, mentre i dati possono essere elaborati per l'inferenza in qualsiasi posizione di OpenAI di Azure. Altre informazioni sulla residenza dei dati.
Le distribuzioni globali sono disponibili nelle stesse risorse OpenAI di Azure dei tipi di distribuzione non globali, ma consentono di sfruttare l'infrastruttura globale di Azure per instradare dinamicamente il traffico al data center con la migliore disponibilità per ogni richiesta. Lo standard globale fornisce la quota predefinita più elevata ed elimina la necessità di bilanciare il carico tra più risorse.
I clienti con un volume costante elevato possono riscontrare una maggiore variabilità della latenza. La soglia viene impostata per modello. Per altre informazioni, vedere la pagina sulle quote. Per le applicazioni che richiedono la varianza di latenza inferiore a un utilizzo elevato del carico di lavoro, è consigliabile acquistare la velocità effettiva con provisioning.
Con provisioning globale
Importante
I dati archiviati inattivi rimangono nell'area geografica di Azure designata, mentre i dati possono essere elaborati per l'inferenza in qualsiasi posizione di OpenAI di Azure. Altre informazioni sulla residenza dei dati.
Le distribuzioni globali sono disponibili nelle stesse risorse OpenAI di Azure dei tipi di distribuzione non globali, ma consentono di sfruttare l'infrastruttura globale di Azure per instradare dinamicamente il traffico al data center con la migliore disponibilità per ogni richiesta. Le distribuzioni con provisioning globale offrono capacità di elaborazione dei modelli riservata per una velocità effettiva elevata e prevedibile tramite l'infrastruttura globale di Azure.
Batch globale
Importante
I dati archiviati inattivi rimangono nell'area geografica di Azure designata, mentre i dati possono essere elaborati per l'inferenza in qualsiasi posizione di OpenAI di Azure. Altre informazioni sulla residenza dei dati.
Batch globale è progettato per gestire in modo efficiente le attività di elaborazione su larga scala e con volumi elevati. Elaborare gruppi asincroni di richieste con quota separata, con turnaround di destinazione di 24 ore, con un costo inferiore del 50% rispetto allo standard globale. Con l'elaborazione in batch, anziché inviare una richiesta alla volta si inviano diverse richieste in un singolo file. Le richieste in batch globale hanno una quota di token accodata separata evitando eventuali interruzioni dei carichi di lavoro online.
I principali casi d'uso sono:
Elaborazione dei dati su larga scala: analizzare rapidamente grandi set di dati in parallelo.
Generazione di contenuti: creare grandi volumi di testo, ad esempio descrizioni di prodotti o articoli.
Revisione e riepilogo dei documenti: automatizzare la revisione e il riepilogo dei documenti lunghi.
Automazione del supporto tecnico per i clienti: gestire contemporaneamente numerose query per risposte più veloci.
Estrazione e analisi dei dati: estrarre e analizzare informazioni da grandi quantità di dati non strutturati.
Attività di elaborazione del linguaggio naturale (NLP): eseguire attività come l'analisi o la traduzione del sentiment su set di dati di grandi dimensioni.
Marketing e personalizzazione: generazione di contenuti e raccomandazioni personalizzati su larga scala.
Standard della zona dati
Importante
I dati archiviati inattivi rimangono nell'area geografica di Azure designata, mentre i dati possono essere elaborati per l'inferenza in qualsiasi posizione di Azure OpenAI all'interno dell'area dati specificata da Microsoft. Altre informazioni sulla residenza dei dati.
Le distribuzioni standard della zona dati sono disponibili nella stessa risorsa OpenAI di Azure di tutti gli altri tipi di distribuzione OpenAI di Azure, ma consentono di sfruttare l'infrastruttura globale di Azure per instradare dinamicamente il traffico al data center all'interno della zona dati definita da Microsoft con la migliore disponibilità per ogni richiesta. Lo standard della zona dati offre quote predefinite più elevate rispetto ai tipi di distribuzione basati sull'area geografica di Azure.
I clienti con un volume costante elevato possono riscontrare una maggiore variabilità della latenza. La soglia viene impostata per modello. Per altre informazioni, vedere la pagina Quote e limiti . Per i carichi di lavoro che richiedono una varianza a bassa latenza in un volume elevato, è consigliabile sfruttare le offerte di distribuzione di cui è stato effettuato il provisioning.
Standard
Le distribuzioni standard forniscono un modello di fatturazione con pagamento in base alla chiamata nel modello scelto. Fornisce il modo più rapido per iniziare, poiché si paga solo per ciò che si utilizza. I modelli disponibili in ogni area e la velocità effettiva possono essere limitati.
Le distribuzioni standard sono ottimizzate per carichi di lavoro con volumi da bassi a medi con un'elevata possibilità di burst. I clienti con un volume costante elevato possono riscontrare una maggiore variabilità della latenza.
Sottoposto a provisioning
Le distribuzioni con provisioning consentono di specificare la quantità di velocità effettiva necessaria in una distribuzione. Il servizio alloca quindi la capacità di elaborazione del modello necessaria e garantisce che sia pronta per l'utente. La velocità effettiva è definita in termini di unità elaborate con provisioning (PTU), ovvero un modo normalizzato per rappresentare la velocità effettiva per la distribuzione. Ogni coppia versione-modello richiede quantità diverse di PTU per distribuire e fornire quantità diverse di velocità effettiva per PTU. Per altre informazioni, vedere l'articolo Concetti relativi alla velocità effettiva con provisioning.
Come disabilitare l'accesso alle distribuzioni globali nella sottoscrizione
Criteri di Azure consente di imporre standard aziendali e di valutare la conformità su larga scala. Il dashboard di conformità fornisce una visualizzazione aggregata per valutare lo stato complessivo dell'ambiente, con la possibilità di eseguire il drill-down con granularità per risorsa e per criterio. Consente inoltre di ottenere la conformità delle risorse tramite la correzione in blocco per le risorse esistenti e la correzione automatica per le nuove risorse. Altre informazioni su Criteri di Azure e sui controlli predefiniti specifici per i servizi di intelligenza artificiale.
È possibile usare i criteri seguenti per disabilitare l'accesso alle distribuzioni standard globali di OpenAI di Azure. Per disabilitare l'accesso alle distribuzioni batch con provisioning globale o globali di Azure, sostituire GlobalStandard
con GlobalProvisionedManaged
o GlobalBatch
per il nome dello SKU previsto.
{
"mode": "All",
"policyRule": {
"if": {
"allOf": [
{
"field": "type",
"equals": "Microsoft.CognitiveServices/accounts/deployments"
},
{
"field": "Microsoft.CognitiveServices/accounts/deployments/sku.name",
"equals": "GlobalStandard"
}
]
}
}
}
Distribuire i modelli
Per informazioni sulla creazione di risorse e sulla distribuzione dei modelli, vedere la guida alla creazione di risorse.