Che cos'è l’avatar di sintesi vocale personalizzato?
L'avatar di sintesi vocale personalizzato consente di creare un avatar sintetico parlante personalizzato e unico per la propria applicazione. Con l'avatar di sintesi vocale personalizzato, è possibile creare un avatar unico e dall’aspetto naturale per il proprio prodotto o marchio fornendo i dati di registrazione video degli attori selezionati. Se crei anche una voce neurale personalizzata per lo stesso attore e la usi come voce dell'avatar, l'avatar è ancora più realistico.
Importante
L'accesso all’avatar personalizzato di sintesi vocale è limitato in base all'idoneità e ai criteri di utilizzo. Richiedere l'accesso tramite il modulo di accettazione.
Come funziona?
La creazione di un avatar personalizzato per di sintesi vocale richiede almeno 10 minuti di registrazione video del talento avatar come dati di training, ed è necessario ottenere il consenso dal talento attore.
Il modello avatar personalizzato può supportare:
- Generazione di video tramite l'API di sintesi batch.
- Live chat tramite l'API di sintesi di streaming.
Prima di iniziare, ecco alcune considerazioni:
Caso d'uso: si userà l’avatar per creare contenuti video come materiale di training e introduzione al prodotto o come venditore virtuale in una conversazione in tempo reale con i propri clienti? Esistono alcuni requisiti di registrazione per diversi casi d'uso.
L'aspetto dell'avatar: il testo personalizzato per l'avatar del parlato ha lo stesso aspetto del talento avatar nei dati di training e non supportiamo la personalizzazione dell'aspetto del modello avatar, ad esempio vestiti, acconciature e così via. Pertanto, se l'applicazione richiede più stili dello stesso avatar, è necessario preparare i dati di training per ogni stile, poiché ogni stile di un avatar viene considerato come un singolo modello avatar.
La voce dell'avatar: l’avatar personalizzato di sintesi vocale può funzionare sia con voci neurali predefinite che con voci neurali personalizzate. La creazione di una voce neurale personalizzata per il talento avatar e l'uso con l'avatar aumenta significativamente la naturalezza dell'esperienza avatar.
Ecco una panoramica dei passaggi da seguire per creare un avatar personalizzato di sintesi vocale:
Ottenere il video di consenso. Ottenere una registrazione video dell'istruzione di consenso. La dichiarazione di consenso è una registrazione video del talento avatar che legge una dichiarazione nella quale acconsente all'utilizzo dei propri dati di immagine e voce per eseguire il training di un modello di avatar personalizzato per la sintesi vocale.
Preparare i dati di training. Assicurarsi che la registrazione video sia nel formato corretto. È consigliabile riprendere la registrazione video in uno studio professionale per ottenere un'immagine di sfondo pulita. La qualità dell'avatar risultante dipende largamente dal video registrato usato per il training. Fattori come la frequenza del parlato, la postura del corpo, l'espressione facciale, i movimenti delle mani, la regolarità nella posizione dell'attore e l'illuminazione della registrazione video sono essenziali per creare un avatar personalizzato di sintesi vocale coinvolgente. Per altre informazioni, vedere come preparare i dati di training.
Eseguire il training del modello avatar. Dopo aver pronto i dati, caricare i dati nel portale avatar personalizzato e iniziare a eseguire il training del modello. La verifica del consenso viene eseguita durante il training. Prima di poter creare un progetto, assicurarsi di avere accesso alla funzionalità personalizzata per l'avatar vocale.
Distribuire e usare il modello avatar nelle applicazioni.
Sequenza componenti
Il modello dell’avatar personalizzato di sintesi vocale contiene tre componenti: l’analizzatore del testo, il sintetizzatore da testo ad audio e il componente che esegue il rendering del video dell’avatar di sintesi vocale.
- Per generare un file video dell’avatar o eseguire streaming con il modello avatar, il testo viene il prima passato nell’analizzatore del testo, che fornisce l'output sotto forma di sequenza di fonemi.
- Il sintetizzatore audio sintetizza l’audio vocale per il testo di input; questi due elementi sono forniti da modelli di sintesi vocale o voci neurali personalizzate.
- Infine, il modello neurale dell’avatar di sintesi vocale prevede l’immagine con sincronizzazione labiale con l’audio parlato, in modo da generare il video sintetico.
I modelli neurali di avatar di sintesi vocale vengono sottoposti a training usando reti neurali profonde basate sui campioni di registrazione di video umani in lingue diverse. Tutte le lingue delle voci predefinite e delle voci neurali personalizzate sono supportate.
Posizioni disponibili
Il training avatar personalizzato è disponibile solo nelle aree di servizio seguenti: Asia sud-orientale, Europa occidentale e Stati Uniti occidentali 2. È possibile usare un modello avatar personalizzato nelle aree di servizio seguenti: Asia sud-orientale, Europa settentrionale, Europa occidentale, Svezia centrale, Stati Uniti centro-meridionali, Stati Uniti orientali 2 e Stati Uniti occidentali 2.
Voce personalizzata e avatar di sintesi vocale personalizzato
L'avatar personalizzato di sintesi vocale può funzionare con una voce neurale predefinita o una voce neurale personalizzata come voce dell'avatar. Per ulteriori informazioni, consultare Voce e lingua avatar.
La voce neurale personalizzata e l'avatar personalizzato per la sintesi vocale sono due funzionalità diverse. È possibile usarle indipendentemente o insieme. Se si sceglie di usarli insieme, è necessario applicare la voce neurale personalizzata e il testo personalizzato all'avatar vocale separatamente e verranno addebitati separatamente per la voce neurale personalizzata e il testo personalizzato per l'avatar vocale. Per ulteriori informazioni, vedere la pagina dei prezzi. Inoltre, se si prevede di usare la sintesi vocale neurale con un avatar per la sintesi vocale, è necessario distribuire o copiare il modello di sintesi vocale neurale in una delle aree supportate dell'avatar.