音訊串流概觀 - 音訊訂用帳戶

發行項
01/03/2025

重要

本文所述的功能目前處於公開預覽狀態。此預覽版本沒有服務等級協定，不建議用於處理生產工作負載。可能不支援特定功能，或可能已經限制功能。如需詳細資訊，請參閱 Microsoft Azure 預覽版增補使用條款。

Azure 通訊服務提供雙向音訊串流功能，為開發人員提供功能強大的工具，以在作用中通話期間擷取、分析和處理音訊內容。此開發為開發人員和企業實時通訊的新可能性鋪平了道路。

藉由整合雙向音訊串流與 Azure OpenAI 和其他即時語音 API 等服務，企業可以達成順暢、低延遲的通訊。這可大幅增強對話式 AI 解決方案的開發與部署，讓互動更具吸引力且更有效率。

透過雙向串流，企業現在可以將其語音解決方案提升為低延遲、類似人為的互動式 AI 代理程式。我們的雙向串流 API 可讓開發人員即時將音訊從 Azure 通訊服務持續呼叫串流至其網頁伺服器，並將音訊串流回呼叫。雖然這些功能的初始重點是協助企業建立交談式 AI 代理程式，但其他使用案例包括自然語言處理，以進行交談分析，或在與使用者進行主動互動時，提供即時見解和建議給代理程式。

此公開預覽支持開發人員從 Azure 通訊服務透過 WebSocket 存取即時音訊串流，並將音訊串流回通話的能力。

即時通話協助

運用交談式 AI 解決方案： 開發複雜的客戶支援虛擬代理程式，以即時與客戶互動，提供立即的回應和解決方案。
個人化客戶體驗： 藉由利用實時數據，企業可以即時提供更個人化和動態的客戶互動，進而提高滿意度和忠誠度。
減少客戶的等候時間： 使用具有大型語言模型（LLM）的雙向音訊串流，您可以建立虛擬代理程式，作為客戶的第一個連絡點，減少對人為代理程式的等候時間。

驗證

生物特徵辨識驗證 – 使用音訊串流執行語音驗證 ，方法是透過您的語音辨識/比對引擎/工具執行來自通話的音訊。

示範雙向音訊串流如何用於交談式 AI 代理程式的範例架構

支援的格式

混合

包含通話上所有參與者的混合音訊。所有音訊都會壓平成一個數據流。

未混合

每個通道包含每個參與者的音訊，最多支援通話中四個佔主導地位的喇叭最多四個通道。您也可以取得參與者RawID，可用來判斷演講者。

其他資訊

開發人員可以使用下列從 Azure 通訊服務傳送的音訊資訊，將音訊封包轉換成其應用程式的聽覺內容。

畫面播放速率：每秒 50 個畫面格
封包數據流速率：20 毫秒速率
數據封包大小：16,000 hz 的 640 個字節，24,000 hz 為 960 個字節
音訊計量：16,000 hz 和 24,000 hz 的 16 位 PCM 單聲道
公用字串資料是 base64 字串，應該轉換成位元組陣列，以建立原始 PCM 檔案。

計費

如需音訊串流計費方式的相關信息，請參閱 Azure 通訊服務定價頁面。您可以在音訊串流下的通話類別中找到價格。

後續步驟

請參閱音訊串流快速入門以深入瞭解。

共用方式為