Vad är OpenAI-text till talröster?
Precis som Azure AI Speech-röster levererar OpenAI-text till talröster högkvalitativ talsyntes för att konvertera skriven text till naturligt talat ljud. Detta låser upp en mängd olika möjligheter för uppslukande och interaktiva användarupplevelser.
OpenAI-text till talröster är tillgängliga via två modellvarianter: Neural
och NeuralHD
.
Neural
: Optimerad för användningsfall i realtid med lägst svarstid, men lägre kvalitet änNeuralHD
.NeuralHD
: Optimerad för kvalitet.
Tillgänglig text för talröster i Azure AI-tjänster
Du kanske frågar: Om jag vill använda en OpenAI-text till talröst, ska jag använda den via Azure OpenAI-tjänsten eller via Azure AI Speech? Vilka är de scenarier som hjälper mig att använda det ena eller det andra?
Varje röstmodell erbjuder distinkta funktioner, så att du kan välja den som bäst passar dina specifika behov. Du vill förstå alternativen och skillnaderna mellan tillgänglig text till talröster i Azure AI-tjänster.
Du kan välja mellan följande text och talröster i Azure AI-tjänster:
- OpenAI-text till talröster i Azure OpenAI Service. Finns i följande regioner: USA, norra centrala och Sverige, centrala.
- OpenAI-text till talröster i Azure AI Speech. Finns i följande regioner: USA, norra centrala och Sverige, centrala.
- Text till talröster i Azure AI Speech-tjänsten. Finns i dussintals regioner. Se regionlistan.
OpenAI-text till talröster via Azure OpenAI Service eller via Azure AI Speech?
Om du vill använda OpenAI-text till talröster kan du välja om du vill använda dem via Azure OpenAI eller via Azure AI Speech. Du kan besöka röstgalleriet för att lyssna på exempel på Azure OpenAI-röster eller syntetisera tal med din egen text med hjälp av skapande av ljudinnehåll. Ljudutdata är identiska i båda fallen, med bara några få funktionsskillnader mellan de två tjänsterna. I tabellen nedan finns mer information.
Här är en jämförelse av funktioner mellan OpenAI-text och talröster i Azure OpenAI Service och OpenAI-text till talröster i Azure AI Speech.
Funktion | Azure OpenAI Service (OpenAI-röster) | Azure AI Speech (OpenAI-röster) | Azure AI Speech-röster |
---|---|---|---|
Region | USA, norra centrala, Sverige, centrala | USA, norra centrala, Sverige, centrala | Finns i dussintals regioner. Se regionlistan. |
Röstvariat | 6 | 12 | Mer än 500 |
Flerspråkigt röstnummer | 6 | 12 | 49 |
Maximal täckning för flerspråkigt språk | 57 | 57 | 77 |
Stöd för Speech Synthesis Markup Language (SSML) | Stöds inte | Stöd för en delmängd av SSML-element. | Stöd för den fullständiga uppsättningen SSML i Azure AI Speech. |
Utvecklingsalternativ | REST-API | Speech SDK, Speech CLI, REST API | Speech SDK, Speech CLI, REST API |
Distributionsalternativ | Endast moln | Endast moln | Moln, inbäddad, hybrid och containrar. |
Realtids- eller batchsyntes | Realtid | Realtids- och batchsyntes | Realtids- och batchsyntes |
Svarstider | större än 500 ms | större än 500 ms | mindre än 300 ms |
Exempelfrekvens för syntetiserat ljud | 24 kHz | 8, 16, 24 och 48 kHz | 8, 16, 24 och 48 kHz |
Ljudformat för talutdata | opus, mp3, aac, flac | opus, mp3, pcm, truesilk | opus, mp3, pcm, truesilk |
Det finns ytterligare funktioner i Azure AI Speech som inte är tillgängliga med OpenAI-röster. Till exempel:
- OpenAI-text till talröster i Azure AI Speech stöder endast en delmängd av SSML-element. Azure AI Speech-röster stöder hela uppsättningen SSML-element.
- Azure AI Speech stöder ordgränshändelser. OpenAI-röster stöder inte ordgränshändelser.
SSML-element som stöds av OpenAI-text till talröster i Azure AI Speech
Talsyntesmarkeringsspråket (SSML) med indatatext avgör strukturen, innehållet och andra egenskaper för text till tal-utdata. Du kan till exempel använda SSML för att definiera ett stycke, en mening, en paus eller en paus eller tystnad. Du kan radbryta text med händelsetaggar som bokmärke eller viseme som kan bearbetas senare av ditt program.
I följande tabell beskrivs de SSML-element (Speech Synthesis Markup Language) som stöds av OpenAI-text till talröster i Azure AI-tal. Endast följande delmängd av SSML-taggar stöds för OpenAI-röster. Mer information finns i SSML-dokumentstruktur och -händelser .
SSML-elementnamn | beskrivning |
---|---|
<speak> |
Omsluter hela innehållet som ska talas. Det är rotelementet i ett SSML-dokument. |
<voice> |
Anger en röst som används för text till tal-utdata. |
<sub> |
Anger att aliasattributets textvärde ska uttalas i stället för elementets omslutna text. |
<say-as> |
Anger innehållstypen, till exempel tal eller datum, för elementets text. Alla egenskapsvärden interpret-as stöds för det här elementet utom interpret-as="name" . Stöds till exempel <say-as interpret-as="date" format="dmy">10-12-2016</say-as> , men <say-as interpret-as="name">ED</say-as> stöds inte. Mer information finns i uttal med SSML. |
<s> |
Anger meningar. |
<lang> |
Anger standardspråket för det språk som du vill att den neurala rösten ska tala. |
<break> |
Använd för att åsidosätta standardbeteendet för pauser eller pauser mellan ord. |