Quote e limiti del servizio OpenAI di Azure

Articolo
11/12/2024

Questo articolo contiene un riferimento rapido e una descrizione dettagliata delle quote e dei limiti per OpenAI di Azure in Servizi di Azure AI.

Informazioni di riferimento su quote e limiti

Le seguenti sezioni forniscono una guida rapida alle quote e ai limiti applicabili a OpenAI di Azure:

Nome limite	Valore limite
Risorse OpenAI per area per sottoscrizione di Azure	30
Limiti di quota DALL-E 2 predefiniti	2 richieste simultanee
Limiti di quota DALL-E 3 predefiniti	2 unità di capacità (6 richieste al minuto)
Limiti di quota Whisper predefiniti	3 richieste al minuto
Numero massimo di token di richiesta per richiesta	Varia per modello. Per altre informazioni, vedere Modelli Servizio OpenAI di Azure
Numero massimo di distribuzioni Standard per risorsa	32
Numero massimo di distribuzioni modello ottimizzate	5
Numero totale di processi di training per risorsa	100
Numero massimo di processi di training simultanei per risorsa	1
Numero massimo di processi di training in coda	20
Numero massimo di file per risorsa (ottimizzazione)	50
Dimensioni totali di tutti i file per risorsa (ottimizzazione)	1 GB
Tempo massimo del processo di training (il processo avrà esito negativo se superato)	720 ore
Dimensioni massime del processo di training (token nel file di training) x (n. di periodi)	2 miliardi
Dimensioni massime di tutti i file per caricamento (OpenAI di Azure nei dati)	16 MB
Numero massimo o input nella matrice con `/embeddings`	2048
Numero massimo di messaggi `/chat/completions`	2048
Numero massimo di funzioni `/chat/completions`	128
Numero massimo di strumenti `/chat completions`	128
Numero massimo di unità elaborate con provisioning per distribuzione	100,000
Numero massimo di file per assistente/thread	10.000 quando si usa l'API o AI Studio. 20 quando si usa Azure OpenAI Studio.
Dimensioni massime dei file per assistente e ottimizzazione	512 MB
Dimensione massima di tutti i file caricati per gli assistenti	100 GB
Limite di token degli assistenti	Limite di 2.000.000 token
Numero massimo di immagini GPT-4o per richiesta (n. di immagini nella matrice dei messaggi/cronologia conversazioni)	50
Numero massimo di token predefiniti GPT-4 `vision-preview` e GPT-4 `turbo-2024-04-09`	16 Aumentare il valore del parametro `max_tokens` per evitare risposte troncate. Per impostazione predefinita, il numero massimo di token GPT-4o è 4096.
Numero massimo di intestazioni personalizzate nelle richieste API ¹	10
Numero massimo di richieste al minuto I limiti di frequenza correnti per l'audio in tempo reale (`gpt-4o-realtime-preview`) vengono definiti come il numero di nuove connessioni Websocket al minuto. Ad esempio, 6 richieste al minuto (RPM) significano 6 nuove connessioni al minuto. Al momento, i limiti di utilizzo per `gpt-4o-realtime-preview` sono adatti per il test e lo sviluppo.	6 nuove connessioni al minuto

¹ Le API correnti consentono fino a 10 intestazioni personalizzate, che vengono passate attraverso la pipeline e restituite. Alcuni clienti superano ora questo numero di intestazioni, generando errori HTTP 431. Non esiste alcuna soluzione per questo errore, ad eccezione di ridurre il volume dell'intestazione. Nelle versioni future dell'API non si passerà più tramite intestazioni personalizzate. È consigliabile che i clienti non dipendano dalle intestazioni personalizzate nelle architetture di sistema future.

Limiti di quota a livello di area

Paese	o1-mini	o1	GPT-4	GPT-4-32K	GPT-4-Turbo	GPT-4-Turbo-V	gpt-4o	gpt-4o-mini	GPT-35-Turbo	GPT-35-Turbo-Instruct	o1-mini - GlobalStandard	o1 - GlobalStandard	gpt-4o - GlobalStandard	gpt-4o-mini - GlobalStandard	GPT-4-Turbo - GlobalStandard	GPT-4o - Global-Batch	GPT-4o-mini - Global-Batch	GPT-4 - Global-Batch	GPT-4-Turbo - Global-Batch	gpt-35-turbo - Global-Batch	Text-Embedding-Ada-002	text-embedding-3-small	text-embedding-3-large	GPT-4o - finetune	GPT-4o-mini - finetune	GPT-4 - ottimizzazione	Babbage-002	Babbage-002 - finetune	Davinci-002	Davinci-002 - finetune	GPT-35-Turbo - finetune	GPT-35-Turbo-1106 - finetune	GPT-35-Turbo-0125 - finetune
australiaeast	-	-	40.000	80.000	80.000	30.000	-	-	300.000	-	-	-	30 M	50 M	2 M	-	-	-	-	-	350.000	-	-	-	-	-	-	-	-	-	-	-	-
brazilsouth	-	-	-	-	-	-	-	-	-	-	-	-	30 M	50 M	2 M	-	-	-	-	-	350.000	-	-	-	-	-	-	-	-	-	-	-	-
canadaeast	-	-	40.000	80.000	80.000	-	-	-	300.000	-	-	-	30 M	50 M	2 M	-	-	-	-	-	350.000	350.000	350.000	-	-	-	-	-	-	-	-	-	-
eastus	1.000.000	600 K	-	-	80.000	-	1.000.000	2 M	240.00	240.00	50 M	30 M	30 M	50 M	2 M	5 B	15 B	150 M	300 M	10 B	240.00	350.000	350.000	-	-	-	-	-	-	-	-	-	-
eastus2	1.000.000	600 K	-	-	80.000	-	1.000.000	2 M	300.000	-	50 M	30 M	30 M	50 M	2 M	-	-	-	-	-	350.000	350.000	350.000	250.000	-	-	-	-	-	-	250.000	250.000	250.000
francecentral	-	-	20.000	60.000	80.000	-	-	-	240.00	-	-	-	30 M	50 M	2 M	-	-	-	-	-	240.00	-	350.000	-	-	-	-	-	-	-	-	-	-
germanywestcentral	-	-	-	-	-	-	-	-	-	-	-	-	30 M	50 M	2 M	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-
japaneast	-	-	-	-	-	30.000	-	-	300.000	-	-	-	30 M	50 M	2 M	-	-	-	-	-	350.000	350.000	350.000	-	-	-	-	-	-	-	-	-	-
koreacentral	-	-	-	-	-	-	-	-	-	-	-	-	30 M	50 M	2 M	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-
northcentralus	1.000.000	600 K	-	-	80.000	-	1.000.000	2 M	300.000	-	50 M	30 M	30 M	50 M	2 M	-	-	-	-	-	350.000	-	-	250.000	500 KB	100 K	240.00	250.000	240.00	250.000	250.000	250.000	250.000
norwayeast	-	-	-	-	150.000	-	-	-	-	-	-	-	30 M	50 M	2 M	-	-	-	-	-	350.000	-	350.000	-	-	-	-	-	-	-	-	-	-
polandcentral	-	-	-	-	-	-	-	-	-	-	-	-	30 M	50 M	2 M	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-
southafricanorth	-	-	-	-	-	-	-	-	-	-	-	-	30 M	50 M	2 M	-	-	-	-	-	350.000	-	-	-	-	-	-	-	-	-	-	-	-
Stati Uniti centro-meridionali	1.000.000	600 K	-	-	80.000	-	1.000.000	2 M	240.00	-	50 M	30 M	30 M	50 M	2 M	-	-	-	-	-	240.00	-	-	-	-	-	-	-	-	-	-	-	-
southindia	-	-	-	-	150.000	-	-	-	300.000	-	-	-	30 M	50 M	2 M	-	-	-	-	-	350.000	-	350.000	-	-	-	-	-	-	-	-	-	-
spaincentral	-	-	-	-	-	-	-	-	-	-	-	-	30 M	50 M	2 M	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-
Svezia centrale	1.000.000	600 K	40.000	80.000	150.000	30.000	1.000.000	2 M	300.000	240.00	50 M	30 M	30 M	50 M	2 M	5 B	15 B	150 M	300 M	10 B	350.000	-	350.000	250.000	500 KB	100 K	240.00	250.000	240.00	250.000	250.000	250.000	250.000
Svizzera settentrionale	-	-	40.000	80.000	-	30.000	-	-	300.000	-	-	-	30 M	50 M	2 M	-	-	-	-	-	350.000	-	-	-	-	-	-	-	-	-	-	-	-
switzerlandwest	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	250.000	-	250.000	250.000	250.000	250.000
uksouth	-	-	-	-	80.000	-	-	-	240.00	-	-	-	30 M	50 M	2 M	-	-	-	-	-	350.000	-	350.000	-	-	-	-	-	-	-	-	-	-
westeurope	-	-	-	-	-	-	-	-	240.00	-	-	-	30 M	50 M	2 M	-	-	-	-	-	240.00	-	-	-	-	-	-	-	-	-	-	-	-
westus	1.000.000	600 K	-	-	80.000	30.000	1.000.000	2 M	300.000	-	50 M	30 M	30 M	50 M	2 M	5 B	15 B	150 M	300 M	10 B	350.000	-	-	-	-	-	-	-	-	-	-	-	-
westus3	1.000.000	600 K	-	-	80.000	-	1.000.000	2 M	300.000	-	50 M	30 M	30 M	50 M	2 M	-	-	-	-	-	350.000	-	350.000	-	-	-	-	-	-	-	-	-	-

Limiti globali dei batch

Nome limite	Valore limite
Numero massimo di file per risorsa	500
Dimensioni massime del file di input	200 MB
Numero massimo di richieste per file	100,000

Quota batch globale

La tabella mostra il limite di quota per il batch. I valori delle quote per il batch globale sono rappresentati in termini di token accodati. Quando si invia un file per l'elaborazione in batch, viene conteggiato il numero di token presenti nel file. Fino a quando il processo batch raggiunge uno stato conclusivo, questi token verranno conteggiati rispetto al limite totale di token accodati.

Modello	Contratto Enterprise	Predefiniti	Abbonamento mensili con carta di credito	Sottoscrizioni MSDN	Microsoft Azure for Students, versioni di prova gratuite
`gpt-4o`	5 B	200 M	50 M	90.000	N/D
`gpt-4o-mini`	15 B	1 B	50 M	90.000	N/D
`gpt-4-turbo`	300 M	80 M	40 M	90.000	N/D
`gpt-4`	150 M	30 M	5 M	100 K	N/D
`gpt-35-turbo`	10 B	1 B	100 M	2 M	50 K

B = miliardi | M = milioni

o1-preview & o1-mini rate limits

Importante

Il rapporto tra RPM/TPM per la quota con modelli di serie o1 funziona in modo diverso rispetto ai modelli di completamento della chat meno recenti:

Modelli di chat meno recenti: 1 unità di capacità = 6 RPM e 1.000 TPM.
o1-preview: 1 unità di capacità = 1 RPM e 6.000 TPM.
o1-mini: 1 unità di capacità = 1 RPM per 10.000 TPM.

Ciò è particolarmente importante per la distribuzione di modelli a livello di codice perché questa modifica nel rapporto RPM/TPM può causare un'allocazione accidentale della quota se si presuppone ancora il rapporto 1:1000 seguito da modelli di completamento della chat meno recenti.

Esiste un problema noto con l'API quota/utilizzo in cui presuppone che il rapporto precedente si applichi ai nuovi modelli di serie o1. L'API restituisce il numero di capacità di base corretto, ma non applica il rapporto corretto per il calcolo accurato di TPM.

o1-preview & o1-mini standard globale

Modello	Livello	Limite di quota nei token al minuto (TPM)	Richieste al minuto
`o1-preview`	Contratto Enterprise	30 M	5 K
`o1-mini`	Contratto Enterprise	50 M	5 K
`o1-preview`	Predefiniti	3 M	500
`o1-mini`	Predefiniti	5 M	500

o1-preview & o1-mini standard

Modello	Livello	Limite di quota nei token al minuto (TPM)	Richieste al minuto
`o1-preview`	Contratto Enterprise	600 K	100
`o1-mini`	Contratto Enterprise	1.000.000	100
`o1-preview`	Predefiniti	300.000	50
`o1-mini`	Predefiniti	500 KB	50

Limiti di velocità di gpt-4o e GPT-4 Turbo

gpt-4o, gpt-4o-mini e gpt-4 (turbo-2024-04-09) dispongono di livelli del limite di velocità più elevati per determinati tipi di clienti.

gpt-4o e GPT-4 Turbo standard globale

Modello	Livello	Limite di quota nei token al minuto (TPM)	Richieste al minuto
`gpt-4o`	Contratto Enterprise	30 M	180 K
`gpt-4o-mini`	Contratto Enterprise	50 M	300.000
`gpt-4` (turbo-2024-04-09)	Contratto Enterprise	2 M	12 K
`gpt-4o`	Predefiniti	450.000	2.700
`gpt-4o-mini`	Predefiniti	2 M	12 K
`gpt-4` (turbo-2024-04-09)	Predefiniti	450.000	2.700

M = milioni | K = migliaia

Standard della zona dati gpt-4o

Modello	Livello	Limite di quota nei token al minuto (TPM)	Richieste al minuto
`gpt-4o`	Contratto Enterprise	10.000.000	60.000
`gpt-4o-mini`	Contratto Enterprise	20.000.000	120 K
`gpt-4o`	Predefiniti	300.000	1,8 K
`gpt-4o-mini`	Predefiniti	1.000.000	6K

M = milioni | K = migliaia

Standard gpt-4o

Modello	Livello	Limite di quota nei token al minuto (TPM)	Richieste al minuto
`gpt-4o`	Contratto Enterprise	1.000.000	6K
`gpt-4o-mini`	Contratto Enterprise	2 M	12 K
`gpt-4o`	Predefiniti	150.000	900
`gpt-4o-mini`	Predefiniti	450.000	2.700

M = milioni | K = migliaia

Livelli di utilizzo

Le distribuzioni standard globali usano l'infrastruttura globale di Azure, instradando dinamicamente il traffico dei clienti al data center con la migliore disponibilità per le richieste di inferenza del cliente. Analogamente, le distribuzioni standard della zona dati consentono di sfruttare l'infrastruttura globale di Azure per instradare dinamicamente il traffico al data center all'interno della zona dati definita da Microsoft con la migliore disponibilità per ogni richiesta. Ciò consente una latenza più coerente per i clienti con livelli di traffico da basso a medio. I clienti con alti livelli sostenuti di utilizzo possono riscontrare una maggiore variabilità nella latenza di risposta.

Il limite di utilizzo determina il livello di utilizzo al di sopra del quale i clienti potrebbero riscontrare una maggiore variabilità nella latenza di risposta. L'utilizzo di un cliente viene definito per modello ed è il totale dei token consumati in tutte le distribuzioni, in tutte le sottoscrizioni e in tutte le aree per un determinato tenant.

Nota

I livelli di utilizzo si applicano solo ai tipi di distribuzione standard, standard della zona dati e standard globali. I livelli di utilizzo non si applicano alle distribuzioni batch globali e a quelle di velocità effettiva con provisioning.

Standard globale GPT-4o, standard della zona dati e standard

Modello	Livelli di utilizzo al mese
`gpt-4o`	12 miliardi di token
`gpt-4o-mini`	85 miliardi di token

GPT-4 standard

Modello	Livelli di utilizzo al mese
`gpt-4` + `gpt-4-32k` (tutte le versioni)	6 miliardi

Altri tipi di offerta

Se la sottoscrizione di Azure è collegata a determinati tipi di offerta, i valori di quota massima sono inferiori ai valori indicati nelle tabelle precedenti.

Livello	Limite di quota nei token al minuto (TPM)
Microsoft Azure for Students, versioni di prova gratuite	1.000 (tutti i modelli)
Sottoscrizioni MSDN	Serie GPT 3.5 Turbo: 30.000 Serie GPT-4: 8.000
Sottoscrizioni mensili basate su carta di credito ¹	Serie GPT 3.5 Turbo: 30.000 Serie GPT-4: 8.000

¹ Attualmente ciò è valido per il tipo di offerta 0003P

Nel portale di Azure è possibile visualizzare il tipo di offerta associato alla sottoscrizione, passando alla sottoscrizione e controllando il riquadro della panoramica della sottoscrizione. Il tipo di offerta corrisponde al campo del piano nella panoramica della sottoscrizione.

Procedure consigliate generali per rimanere entro i limiti di velocità

Per ridurre al minimo i problemi relativi ai limiti di frequenza, è consigliabile usare le tecniche seguenti:

Implementare la logica di ripetizione dei tentativi nell'applicazione.
Evitare modifiche brusche nel carico di lavoro. Aumentare gradualmente il carico di lavoro.
Testare modelli di aumento del carico diversi.
Aumentare la quota assegnata alla distribuzione. Spostare la quota da un'altra distribuzione, se necessario.

Come richiedere aumenti delle quote e dei limiti predefiniti

Le richieste di aumento della quota possono essere inviate dalla pagina Quote di Azure AI Studio. A causa della domanda elevata, le richieste di aumento della quota vengono accettate e verranno compilate nell'ordine in cui vengono ricevute. La priorità viene assegnata ai clienti che generano traffico che utilizza l'allocazione della quota esistente e la richiesta potrebbe essere negata se questa condizione non viene soddisfatta.

Per altri limiti di frequenza, inviare una richiesta di servizio.

Passaggi successivi

Informazioni su come gestire la quota per le distribuzioni OpenAI di Azure. Altre informazioni sui modelli sottostanti che alimentano OpenAI di Azure.

Condividi tramite

Quote e limiti del servizio OpenAI di Azure

Informazioni di riferimento su quote e limiti

Limiti di quota a livello di area

Limiti globali dei batch

Quota batch globale

o1-preview & o1-mini rate limits

o1-preview & o1-mini standard globale

o1-preview & o1-mini standard

Limiti di velocità di gpt-4o e GPT-4 Turbo

gpt-4o e GPT-4 Turbo standard globale

Standard della zona dati gpt-4o

Standard gpt-4o

Livelli di utilizzo

Standard globale GPT-4o, standard della zona dati e standard

GPT-4 standard

Altri tipi di offerta

Procedure consigliate generali per rimanere entro i limiti di velocità

Come richiedere aumenti delle quote e dei limiti predefiniti

Passaggi successivi

Commenti e suggerimenti

Risorse aggiuntive