Så här skapar du transkriptioner med mänsklig etikett
Transkriptioner som är märkta med människor är transkriptioner ord för ord av en ljudfil. Du använder transkriptioner med mänskliga etiketter för att utvärdera modellens noggrannhet och förbättra igenkänningsnoggrannheten, särskilt när ord tas bort eller ersätts felaktigt. Den här guiden kan hjälpa dig att skapa högkvalitativa transkriptioner.
Ett representativt urval av transkriptionsdata rekommenderas för att utvärdera modellens noggrannhet. Data bör omfatta olika talare och yttranden som är representativa för vad användarna säger till programmet. För testdata är den maximala varaktigheten för varje enskild ljudfil 2 timmar.
Ett stort urval av transkriptionsdata krävs för att förbättra igenkänningen. Vi föreslår att du tillhandahåller mellan 1 och 100 timmars ljuddata. Speech-tjänsten använder upp till 100 timmars ljud för träning (upp till 20 timmar för äldre modeller som inte debiteras för träning). Varje enskild ljudfil får inte vara längre än 40 sekunder (upp till 30 sekunder för Whisper-anpassning).
Den här guiden har avsnitt för amerikanska engelska, mandarin kinesiska och tyska språk.
Transkriptionerna för alla WAV-filer finns i en enda oformaterad fil (.txt eller .tsv). Varje rad i transkriptionsfilen innehåller namnet på en av ljudfilerna, följt av motsvarande transkription. Filnamnet och transkriptionen avgränsas med en flik (\t
).
Till exempel:
speech01.wav speech recognition is awesome
speech02.wav the quick brown fox jumped all over the place
speech03.wav the lazy dog was not amused
Transkriptionerna är textnormaliserade så att systemet kan bearbeta dem. Du måste dock göra några viktiga normaliseringar innan du laddar upp datauppsättningen.
Transkriptioner som är märkta med människor för andra språk än engelska och mandarinkineser måste vara UTF-8-kodade med en byteordningsmarkör. För andra nationella transkriptionskrav, se följande avsnitt.
en-US
Transkriptioner med mänskliga etiketter för engelskt ljud måste anges som oformaterad text, endast med ASCII-tecken. Undvik att använda latin-1- eller Unicode-skiljetecken. Dessa tecken läggs ofta oavsiktligt till när du kopierar text från ett ordbehandlingsprogram eller skrapar data från webbsidor. Om dessa tecken finns ser du till att uppdatera dem med lämplig ASCII-ersättning.
Några exempel:
Tecken att undvika | Ersättning | Kommentar |
---|---|---|
"Hello world" | "Hello world" | De inledande och avslutande citattecknen ersätts med lämpliga ASCII-tecken. |
Johns dag | Johns dag | Apostrofen ersätts med lämpligt ASCII-tecken. |
Det var bra – nej, det var fantastiskt! | Det var bra- nej, det var fantastiskt! | Em-bindestrecket ersätts med två bindestreck. |
Textnormalisering för engelska i USA
Textnormalisering är omvandlingen av ord till ett konsekvent format som används vid träning av en modell. Vissa normaliseringsregler tillämpas automatiskt på text, men vi rekommenderar att du använder dessa riktlinjer när du förbereder dina transkriptionsdata med mänsklig etikett:
- Skriv ut förkortningar i ord.
- Skriv ut icke-standard numeriska strängar i ord (till exempel redovisningsvillkor).
- Icke-fabetiska tecken eller blandade alfanumeriska tecken ska transkriberas som uttalade.
- Förkortningar som uttalas som ord bör inte redigeras (till exempel "radar", "laser", "RAM" eller "NATO").
- Skriv ut förkortningar som uttalas som separata bokstäver med varje bokstav avgränsad med ett blanksteg.
- Om du använder ljud transkriberar du tal som ord som matchar ljudet (till exempel "101" kan uttalas som "en oh en" eller "ett hundra och ett").
- Undvik att upprepa tecken, ord eller grupper med ord mer än tre gånger, till exempel "ja ja ja ja". Speech-tjänsten kan släppa rader med en sådan upprepning.
Här är några exempel på normalisering som du bör utföra på transkriptionen:
Ursprunglig text | Text efter normalisering (människa) |
---|---|
Dr Bruce Banderoll | Doctor Bruce Banderoll |
James Bond, 007 | James Bond, dubbel oh sju |
Ke$ha | Kesha |
Hur lång är 2x4 | Hur länge är de två med fyra |
Mötet går från 13:00 till 15:00 | Mötet går från ett till tre pm |
Min blodtyp är O+ | Min blodtyp är O-positiv |
Vatten är H20 | Vatten är H 2 O |
Spela OU812 av Van Halen | Spela O U 8 1 2 av Van Halen |
UTF-8 med BOM | U T F 8 med BOM |
Det kostar $3.14 | Det kostar tre fjorton |
Följande normaliseringsregler tillämpas automatiskt på transkriptioner:
- Använd gemener.
- Ta bort alla skiljetecken utom apostrofer i ord.
- Expandera tal till ord/talat formulär, till exempel dollarbelopp.
Här följer några exempel på normalisering som utförs automatiskt på transkriptionen:
Ursprunglig text | Text efter normalisering (automatisk) |
---|---|
»Helig ko!» sade Batman. | heliga ko sade batman |
»Vad?» sade Batmans sidekick, Robin. | vad sa Batmans sidekick robin |
Gå och hämta dem! | gå och hämta dem |
Jag är dubbelledad | Jag är dubbelledad |
104 Elm Street | en oh fyra Elm street |
Justera till 102,7 | justera till en oh två punkt sju |
Pi är cirka 3,14 | pi är ungefär tre punkt ett fyra |
de-DE
Transkriptioner som är märkta med mänskliga etiketter för tyskt ljud måste vara UTF-8-kodade med en byteordningsmarkör.
Textnormalisering för tyska
Textnormalisering är omvandlingen av ord till ett konsekvent format som används vid träning av en modell. Vissa normaliseringsregler tillämpas automatiskt på text, men vi rekommenderar att du använder dessa riktlinjer när du förbereder dina transkriptionsdata med mänsklig etikett:
- Skriv decimaltecken som "" och inte ".".
- Skriv tidsavgränsare som ":" och inte ".". (till exempel: 12:00 Uhr).
- Förkortningar som "ca" ersätts inte. Vi rekommenderar att du använder det fullständiga talade formuläret.
- De fyra huvudsakliga matematiska operatorerna (+, -, *och /) tas bort. Vi rekommenderar att du ersätter dem med det skriftliga formuläret: "plus", "minus", "mal" och "geteilt".
- Jämförelseoperatorer tas bort (=, <och >). Vi rekommenderar att du ersätter dem med "gleich", "kleiner als" och "grösser als".
- Skriv bråktal, till exempel 3/4, i skriftlig form (till exempel "drei viertel" i stället för 3/4).
- Ersätt symbolen "€" med dess skriftliga form "Euro".
Här är några exempel på normalisering som du bör utföra på transkriptionen:
Ursprunglig text | Text efter användarnormalisering | Text efter systemnormalisering |
---|---|---|
Es ist 12.23 Uhr | Es ist 12:23 Uhr | es ist zwölf uhr drei und zwanzig uhr |
{12.45} | {12,45} | zwölf komma vier fünf |
2 + 3 - 4 | 2 plus 3 minus 4 | zwei plus drei minus vier |
Följande normaliseringsregler tillämpas automatiskt på transkriptioner:
- Använd gemener för all text.
- Ta bort alla skiljetecken, inklusive olika typer av citattecken ("test", "test", "test" och «test» är OK).
- Ta bort rader med specialtecken från den här uppsättningen: ¢ ¤ ¥ ¢ § © ª ¬ ® ° ± ² μ × ÿ ج¬.
- Utöka tal till talad form, inklusive dollar- eller eurobelopp.
- Acceptera umlauts endast för en, o, och du. Andra ersätts med "th" eller ignoreras.
Här följer några exempel på normalisering som utförs automatiskt på transkriptionen:
Ursprunglig text | Text efter normalisering |
---|---|
Frankfurter Ring | frankfurter ring |
¡Eine Frage! | eine frage |
Wir, haben | wir haben |
ja-JP
På japanska (ja-JP) finns det en maximal längd på 90 tecken för varje mening. Rader med längre meningar ignoreras. Om du vill lägga till längre text infogar du en punkt däremellan.
zh-CN
Transkriptioner som är märkta med mänskliga etiketter för kinesiskt mandarinljud måste vara UTF-8 kodade med en byteordningsmarkör. Undvik att använda interpunktionstecken med halv bredd. Dessa tecken kan inkluderas oavsiktligt när du förbereder data i ett ordbehandlingsprogram eller skrapar data från webbsidor. Om dessa tecken finns ser du till att uppdatera dem med lämplig ersättning med full bredd.
Några exempel:
Tecken att undvika | Ersättning | Kommentar |
---|---|---|
"你好" | "你好" | De inledande och avslutande citattecknen ersätts med lämpliga tecken. |
需要什么帮助? | 需要什么帮助? | Frågetecknet ersätts med lämpligt tecken. |
Textnormalisering för mandarin kinesiska
Textnormalisering är omvandlingen av ord till ett konsekvent format som används vid träning av en modell. Vissa normaliseringsregler tillämpas automatiskt på text, men vi rekommenderar att du använder dessa riktlinjer när du förbereder dina transkriptionsdata med mänsklig etikett:
- Skriv ut förkortningar i ord.
- Skriv ut numeriska strängar i talat format.
Här är några exempel på normalisering som du bör utföra på transkriptionen:
Ursprunglig text | Text efter normalisering |
---|---|
我今年 21 | 我今年二十一 |
3 号楼 504 | 三号 楼 五 零 四 |
Följande normaliseringsregler tillämpas automatiskt på transkriptioner:
- Ta bort alla skiljetecken.
- Expandera tal till talat formulär.
- Konvertera bokstäver med full bredd till bokstäver med halv bredd.
- Använda versaler för alla engelska ord.
Här följer några exempel på automatisk transkriptionsnormalisering:
Ursprunglig text | Text efter normalisering |
---|---|
3.1415 | 三 点 一 四 一 五 |
¥ 3,5 | 三 元 五 角 |
w f y z | W F Y Z |
1992 年 8 月 8 日 | 一 九 九 二 年 八 月 八 日 |
你吃饭了吗? | 你 吃饭 了 吗 |
下午 5:00 的航班 | 下午 五点 的 航班 |
我今年 21 岁 | 我 今年 二十 一 岁 |