まとめ
このモジュールでは、音声テクノロジの 2 つの重要な側面である音声認識と音声合成について学習しました。 音声認識では、音響モデルと言語モデルを使用して音声がデータに変換され、多くの場合、テキストに文字起こしされます。 このテキストは、クローズド キャプション、トランスクリプト、メモの自動ディクテーション、ユーザー入力処理など、さまざまな目的で使用できます。 一方、音声合成はデータを音声化するもので、通常はテキストを音声に変換することによって行います。 合成音声は、音声応答の生成、音声メニューの作成、メールまたはテキストの読み上げ、アナウンスの放送に使用できます。 また、Microsoft Azure の AI 音声サービスについても学習しました。このサービスは、音声テキスト変換 API やテキスト読み上げ API などの機能を通じて、音声認識機能と音声合成機能を提供します。
このモジュールの要点は Azure AI 音声サービスの機能です。 音声テキスト変換 API を使用すると、Microsoft によってトレーニングされたユニバーサル言語モデルに基づくモデルを使用して、音声からテキストへのリアルタイムまたはバッチ文字起こしが可能です。 これはプレゼンテーションやデモ中のリアルタイムの文字起こしや、保存されているオーディオ ファイルのバッチ文字起こしに使用できます。 テキスト読み上げ API ではテキスト入力が可聴音声に変換されます。この可聴音声は、さまざまな音声、言語、地域の発音でカスタマイズできます。Azure AI 音声は、Azure AI Speech Studio、Azure AI Studio、コマンド ライン インターフェイス (CLI)、REST API、ソフトウェア開発キット (SDK) などのさまざまなプラットフォームを介してアクセスできる汎用性の高いツールです。
Azure AI Speech の詳細については、サービスに関するドキュメントを参照してください。