Hämta ett talarprofil-ID för den personliga rösten
Om du vill använda personlig röst i ditt program måste du skaffa ett talarprofil-ID. Talarprofil-ID:t används för att generera syntetiserat ljud med den angivna textinmatningen.
Du skapar ett talarprofil-ID baserat på talarens verbala medgivandeuttryck och en ljudprompt (ett rent mänskligt röstexempel mellan 5 och 90 sekunder). Användarens röstegenskaper kodas i egenskapen speakerProfileId
som används för text till tal. Mer information finns i Använda personlig röst i ditt program.
Kommentar
Det personliga röst-ID:t och talarprofil-ID:t är inte samma. Du kan välja det personliga röst-ID:t, men talarprofilens ID genereras av tjänsten. Det personliga röst-ID:t används för att hantera den personliga rösten. Talarprofilens ID används för text till tal.
Du anger ljudfilerna från en offentligt tillgänglig URL (PersonalVoices_Create) eller laddar upp ljudfilerna (PersonalVoices_Post).
Fråga ljudformat
De format som stöds för ljudfiler för frågor och svar är:
Format | Exempelfrekvens | Bithastighet | Bitdjup |
---|---|---|---|
mp3 | 16 kHz, 24 kHz, 44,1 kHz, 48 kHz | 128 kbps, 192 kbps, 256 kbps, 320 kbps | / |
wav | 16 kHz, 24 kHz, 44,1 kHz, 48 kHz | / | 16-bitars, 24-bitars, 32-bitars |
Skapa personlig röst från en fil
I det här scenariot måste ljudfilerna vara tillgängliga lokalt.
Om du vill skapa en personlig röst och hämta talarprofilens ID använder du PersonalVoices_Post driften av det anpassade röst-API:et. Skapa begärandetexten enligt följande instruktioner:
- Ange den obligatoriska
projectId
egenskapen. Se skapa ett projekt. - Ange den obligatoriska
consentId
egenskapen. Se lägga till användarmedgivande. - Ange den obligatoriska
audiodata
egenskapen. Du kan ange en eller flera ljudfiler i samma begäran.
Gör en HTTP POST-begäran med hjälp av URI:n enligt följande PersonalVoices_Post exempel.
- Ersätt
YourResourceKey
med din Speech-resursnyckel. - Ersätt
YourResourceRegion
med din Speech-resursregion. - Ersätt
JessicaPersonalVoiceId
med ett personligt röst-ID som du väljer. Skiftlägeskänsligt ID används i den personliga röstens URI och kan inte ändras senare.
curl -v -X POST -H "Ocp-Apim-Subscription-Key: YourResourceKey" -F 'projectId="ProjectId"' -F 'consentId="JessicaConsentId"' -F 'audiodata=@"D:\PersonalVoiceTest\CNVSample001.wav"' -F 'audiodata=@"D:\PersonalVoiceTest\CNVSample002.wav"' "
https://YourResourceRegion.api.cognitive.microsoft.com/customvoice/personalvoices/JessicaPersonalVoiceId?api-version=2024-02-01-preview"
Du bör få en svarstext i följande format:
{
"id": "JessicaPersonalVoiceId",
"speakerProfileId": "3059912f-a3dc-49e3-bdd0-02e449df1fe3",
"projectId": "ProjectId",
"consentId": "JessicaConsentId",
"status": "NotStarted",
"createdDateTime": "2024-09-01T05:30:00.000Z",
"lastActionDateTime": "2024-09-02T10:15:30.000Z"
}
Använd egenskapen speakerProfileId
för att integrera personlig röst i text-till-tal-programmet. Mer information finns i Använda personlig röst i ditt program.
Svarshuvudet innehåller egenskapen Operation-Location
. Använd den här URI:n för att få information om den PersonalVoices_Post åtgärden. Här är ett exempel på svarshuvudet:
Operation-Location: https://eastus.api.cognitive.microsoft.com/customvoice/operations/1321a2c0-9be4-471d-83bb-bc3be4f96a6f?api-version=2024-02-01-preview
Operation-Id: 1321a2c0-9be4-471d-83bb-bc3be4f96a6f
Skapa personlig röst från en URL
I det här scenariot måste ljudfilerna redan lagras i en Azure Blob Storage-container.
Om du vill skapa en personlig röst och hämta talarprofilens ID använder du PersonalVoices_Create driften av det anpassade röst-API:et. Skapa begärandetexten enligt följande instruktioner:
- Ange den obligatoriska
projectId
egenskapen. Se skapa ett projekt. - Ange den obligatoriska
consentId
egenskapen. Se lägga till användarmedgivande. - Ange den obligatoriska
audios
egenskapen. Ange följande egenskaper iaudios
egenskapen:- Ange den obligatoriska
containerUrl
egenskapen till URL:en för Azure Blob Storage-containern som innehåller ljudfilerna. Använd SAS SAS (signaturer för delad åtkomst) för en container med både läs- och listbehörigheter. - Ange den obligatoriska
extensions
egenskapen till filnamnstilläggen för ljudfilerna. - Du kan också ange
prefix
egenskapen för att ange ett prefix för blobnamnet.
- Ange den obligatoriska
Gör en HTTP PUT-begäran med hjälp av URI:n enligt följande PersonalVoices_Create exempel.
- Ersätt
YourResourceKey
med din Speech-resursnyckel. - Ersätt
YourResourceRegion
med din Speech-resursregion. - Ersätt
JessicaPersonalVoiceId
med ett personligt röst-ID som du väljer. Skiftlägeskänsligt ID används i den personliga röstens URI och kan inte ändras senare.
curl -v -X PUT -H "Ocp-Apim-Subscription-Key: YourResourceKey" -H "Content-Type: application/json" -d '{
"projectId": "ProjectId",
"consentId": "JessicaConsentId",
"audios": {
"containerUrl": "https://contoso.blob.core.windows.net/voicecontainer?mySasToken",
"prefix": "jessica/",
"extensions": [
".wav"
]
}
} ' "https://YourResourceRegion.api.cognitive.microsoft.com/customvoice/personalvoices/JessicaPersonalVoiceId?api-version=2024-02-01-preview"
# Ensure the `containerUrl` has both read and list permissions.
# Ensure the `.wav` files are located in the "jessica" folder within the container. The `prefix` matches all `.wav` files in the "jessica" folder. If there is no such folder, the prefix will match `.wav` files with names starting with "jessica".
Du bör få en svarstext i följande format:
{
"id": "JessicaPersonalVoiceId",
"speakerProfileId": "3059912f-a3dc-49e3-bdd0-02e449df1fe3",
"projectId": "ProjectId",
"consentId": "JessicaConsentId",
"status": "NotStarted",
"createdDateTime": "2024-09-01T05:30:00.000Z",
"lastActionDateTime": "2024-09-02T10:15:30.000Z"
}
Använd egenskapen speakerProfileId
för att integrera personlig röst i text-till-tal-programmet. Mer information finns i Använda personlig röst i ditt program.
Svarshuvudet innehåller egenskapen Operation-Location
. Använd den här URI:n för att få information om PersonalVoices_Create åtgärden. Här är ett exempel på svarshuvudet:
Operation-Location: https://eastus.api.cognitive.microsoft.com/customvoice/operations/1321a2c0-9be4-471d-83bb-bc3be4f96a6f?api-version=2024-02-01-preview
Operation-Id: 1321a2c0-9be4-471d-83bb-bc3be4f96a6f