音訊串流概觀 - 音訊訂用帳戶
重要
本文所述的功能目前處於公開預覽狀態。 此預覽版本沒有服務等級協定,不建議用於處理生產工作負載。 可能不支援特定功能,或可能已經限制功能。 如需詳細資訊,請參閱 Microsoft Azure 預覽版增補使用條款。
Azure 通訊服務 提供雙向音訊串流功能,為開發人員提供功能強大的工具,以在作用中通話期間擷取、分析和處理音訊內容。 此開發為開發人員和企業實時通訊的新可能性鋪平了道路。
藉由整合雙向音訊串流與 Azure OpenAI 和其他即時語音 API 等服務,企業可以達成順暢、低延遲的通訊。 這可大幅增強對話式 AI 解決方案的開發與部署,讓互動更具吸引力且更有效率。
透過雙向串流,企業現在可以將其語音解決方案提升為低延遲、類似人為的互動式 AI 代理程式。 我們的雙向串流 API 可讓開發人員即時將音訊從 Azure 通訊服務 持續呼叫串流至其網頁伺服器,並將音訊串流回呼叫。 雖然這些功能的初始重點是協助企業建立交談式 AI 代理程式,但其他使用案例包括自然語言處理,以進行交談分析,或在與使用者進行主動互動時,提供即時見解和建議給代理程式。
此公開預覽支持開發人員從 Azure 通訊服務 透過 WebSocket 存取即時音訊串流,並將音訊串流回通話的能力。
即時通話協助
運用交談式 AI 解決方案: 開發複雜的客戶支援虛擬代理程式,以即時與客戶互動,提供立即的回應和解決方案。
個人化客戶體驗: 藉由利用實時數據,企業可以即時提供更個人化和動態的客戶互動,進而提高滿意度和忠誠度。
減少客戶的等候時間: 使用具有大型語言模型(LLM)的雙向音訊串流,您可以建立虛擬代理程式,作為客戶的第一個連絡點,減少對人為代理程式的等候時間。
驗證
- 生物特徵辨識驗證 – 使用音訊串流執行語音驗證 ,方法是透過您的語音辨識/比對引擎/工具執行來自通話的音訊。
示範雙向音訊串流如何用於交談式 AI 代理程式的範例架構
支援的格式
混合
包含通話上所有參與者的混合音訊。 所有音訊都會壓平成一個數據流。
未混合
每個通道包含每個參與者的音訊,最多支援通話中四個佔主導地位的喇叭最多四個通道。 您也可以取得參與者RawID,可用來判斷演講者。
其他資訊
開發人員可以使用下列從 Azure 通訊服務 傳送的音訊資訊,將音訊封包轉換成其應用程式的聽覺內容。
- 畫面播放速率:每秒 50 個畫面格
- 封包數據流速率:20 毫秒速率
- 數據封包大小:16,000 hz 的 640 個字節,24,000 hz 為 960 個字節
- 音訊計量:16,000 hz 和 24,000 hz 的 16 位 PCM 單聲道
- 公用字串資料是 base64 字串,應該轉換成位元組陣列,以建立原始 PCM 檔案。
計費
如需音訊串流計費方式的相關信息,請參閱 Azure 通訊服務 定價頁面。 您可以在音訊串流下的通話類別中找到價格。
後續步驟
請參閱 音訊串流快速入門 以深入瞭解。