Zusammenfassung

1 Minute

In diesem Modul haben Sie zwei wichtige Aspekte der Sprachtechnologie kennengelernt: Spracherkennung und Sprachsynthese. Bei der Spracherkennung werden gesprochene Wörter in Daten konvertiert und häufig in Text transkribiert, wobei ein akustisches Modell und ein Sprachmodell verwendet werden. Dieser Text kann für verschiedene Zwecke verwendet werden, z. B. Untertitel, Transkripte, automatisiertes Diktieren von Notizen und die Verarbeitung von Benutzereingaben. Bei der Sprachsynthese geht es dagegen um das Umwandeln von Daten in Sprache, in der Regel durch das Konvertieren von Text in Sprache. Die synthetisierte Sprache kann dann verwendet werden, um gesprochene Antworten zu generieren, Sprachmenüs zu erstellen, E-Mails oder Texte laut vorzulesen und Ankündigungen zu übertragen. Außerdem haben Sie etwas über Microsoft Azure KI Speech-Dienst erfahren, der Spracherkennungs- und Sprachsynthesefunktionen über Features wie Spracherkennungs- und Sprachsynthese-APIs bereitstellt.

Die wichtigsten Erkenntnisse aus diesem Modul sind die Funktionen des Azure KI Speech-Diensts. Die Spracherkennungs-API ermöglicht die Echtzeit- oder Batchtranskription von Audioinhalten in Text mithilfe eines Modells, das auf dem von Microsoft trainierten Universal Language Model basiert. Sie kann für Echtzeittranskriptionen während Präsentationen oder Demonstrationen oder für Batchtranskriptionen gespeicherter Audiodateien verwendet werden. Die Sprachsynthese-API konvertiert Texteingaben in hörbare Sprache, die mit verschiedenen Stimmen, Sprachen und regionalen Aussprachen angepasst werden kann. Azure KI Speech ist ein vielseitiges Tool, auf das über verschiedene Plattformen wie Azure KI Speech Studio, Azure KI Studio, die Befehlszeilenschnittstelle (CLI), REST-APIs und SDKs (Software Development Kits) zugegriffen werden kann.

Weitere Informationen zu Azure KI Speech finden Sie in der Dienstdokumentation.

Zusammenfassung

Feedback