Synthetisieren von Übersetzungen

Abgeschlossen

TranslationRecognizer gibt übersetzte Transkriptionen von gesprochenen Eingaben zurück – im Wesentlichen die Übersetzung von hörbarer Sprache in Text.

Sie können die Übersetzung auch als Sprache synthetisieren, um Sprachübersetzungslösungen zu erstellen. Es gibt zwei Möglichkeiten, dies zu erreichen.

Ereignisbasierte Synthese

Wenn Sie eine 1:1-Übersetzung durchführen möchten (Übersetzung aus einer Ausgangssprache in eine einzige Zielsprache), können Sie ereignisbasierte Synthese verwenden, um die Übersetzung als Audiodatenstrom zu erfassen. Gehen Sie hierzu wie folgt vor:

Geben Sie die gewünschte Stimme für die übersetzte Sprache in TranslationConfig an. Erstellen Sie einen Ereignishandler für das Synthesizing-Ereignis des TranslationRecognizer-Objekts. Verwenden Sie im Ereignishandler die GetAudio()-Methode des Result-Parameters, um den Bytedatenstrom der übersetzten Audiodaten abzurufen. Der spezifische Code, der zum Implementieren eines Ereignishandlers verwendet wird, variiert je nach verwendeter Programmiersprache. Weitere Informationen finden Sie in den C#- und Python-Beispielen in der Dokumentation zum Speech SDK.

Manuelle Synthese

Manuelle Synthese ist ein alternativer Ansatz zur ereignisbasierten Synthese, bei dem Sie keinen Ereignishandler implementieren müssen. Sie können manuelle Synthese verwenden, um Audioübersetzungen für eine oder mehrere Zielsprachen zu generieren.

Manuelle Synthese von Übersetzungen ist im Wesentlichen nur die Kombination aus zwei separaten Vorgängen, für die Folgendes gilt:

  1. Sie verwenden einen TranslationRecognizer, um gesprochene Eingaben in Texttranskriptionen in einer oder mehreren Zielsprachen zu übersetzen.
  2. Sie iterieren durch das Wörterbuch Translations im Ergebnis des Übersetzungsvorgangs, indem Sie einen SpeechSynthesizer verwenden, um einen Audiodatenstrom für jede Sprache zu synthetisieren.