Condividi tramite


Scalabilità automatica dei Servizi di AI

Questo articolo fornisce indicazioni su come i clienti possono accedere a limiti di frequenza più elevati per le risorse di Servizi di Azure AI.

Panoramica

Ogni risorsa di Servizi di Azure AI ha una frequenza di chiamata statica preconfigurata (transazioni al secondo) che limita il numero di chiamate simultanee che i clienti possono effettuare al servizio back-end in un determinato intervallo di tempo. La funzionalità di scalabilità automatica aumenterà o ridurrà automaticamente i limiti di frequenza delle risorse di un cliente in base alle metriche di utilizzo delle risorse e alle metriche della capacità del servizio back-end quasi in tempo reale.

Introduzione alla funzionalità di scalabilità automatica

Questa funzionalità è disabilitata per impostazione predefinita per ogni nuova risorsa. Seguire queste istruzioni per abilitare la registrazione.

Passare alla pagina della risorsa nel portale di Azure e selezionare la scheda Panoramica nel riquadro sinistro. Nella sezione Informazioni di base, individuare la riga Scalabilità automatica e selezionare il collegamento per visualizzare il riquadro Impostazioni di scalabilità automatica e abilitare la funzionalità.

Screenshot del portale di Azure con il riquadro di scalabilità automatica a destra.

Domande frequenti

L'abilitazione della funzionalità di scalabilità automatica significa che la risorsa non verrà più limitata?

No, è comunque possibile che si verifichino errori 429 per il limite di velocità in eccesso. Se l'applicazione attiva un picco e la risorsa segnala una risposta 429, la scalabilità automatica verifica la sezione di proiezione della capacità disponibile per verificare se la capacità corrente può supportare un aumento del limite di velocità e rispondere entro cinque minuti.

Se la capacità disponibile è sufficiente per un aumento, la scalabilità automatica aumenta gradualmente il limite di velocità della risorsa. Se si continua a chiamare la risorsa a una velocità elevata che comporta una maggiore limitazione 429, la velocità TPS continuerà ad aumentare nel tempo. Se l'azione continua per un'ora o più, è necessario raggiungere la frequenza massima (fino a 1000 TPS) attualmente disponibile in quel momento per tale risorsa.

Se la capacità disponibile non è sufficiente per un aumento, la funzionalità di scalabilità automatica attende cinque minuti e verifica di nuovo.

Cosa accade se è necessario un limite di frequenza predefinito superiore?

Per impostazione predefinita, le risorse di Servizi di Azure AI hanno un limite di frequenza predefinito pari a 10 TPS. Se è necessario un TPS predefinito superiore, inviare un ticket seguendo il collegamento Nuova richiesta di supporto nella pagina della risorsa nel portale di Azure. Ricordarsi di includere una giustificazione aziendale nella richiesta.

Questa funzionalità aumenterà la spesa di Azure?

I prezzi di Servizi di Azure AI non sono stati modificati e sono accessibili qui. Verranno fatturate solo le chiamate riuscite effettuate alle API di Servizi di Azure AI. Tuttavia, un aumento dei limiti di frequenza delle chiamate significa che verranno completate più transazioni e si potrebbe ricevere una fattura più elevata.

Bisogna essere consapevoli dei potenziali errori e delle relative conseguenze. Se un bug nell'applicazione client chiama il servizio centinaia di volte al secondo, ciò potrebbe comportare una fattura molto più elevata, mentre il costo sarebbe molto più limitato al di sotto di un limite di tariffa fissa. Gli errori di questo tipo sono responsabilità dell'utente, pertanto è consigliabile eseguire test di sviluppo e aggiornamento client su una risorsa con un limite di velocità fissa prima di usare la funzionalità di scalabilità automatica.

È possibile disabilitare questa funzionalità se si preferisce limitare la tariffa rispetto ad avere una spesa imprevedibile?

Sì, è possibile disabilitare la funzionalità di scalabilità automatica tramite il portale di Azure o l'interfaccia della riga di comando e tornare all'impostazione predefinita del limite di frequenza delle chiamate. Se la risorsa è stata approvata in precedenza per un TPS predefinito superiore, torna a tale frequenza. L'applicazione delle modifiche può richiedere fino a cinque minuti.

Quali servizi supportano la funzionalità di scalabilità automatica?

La funzionalità di scalabilità automatica è disponibile per i servizi seguenti:

È possibile testare questa funzionalità usando una sottoscrizione gratuita?

No, la funzionalità di scalabilità automatica non è disponibile per le sottoscrizioni di livello gratuito.

Passaggi successivi