오디오 스트리밍 개요 - 오디오 구독

아티클
11/09/2024

Important

이 문서에 설명된 기능은 현재 공개 미리 보기로 제공됩니다. 이 미리 보기 버전은 서비스 수준 계약 없이 제공되며, 프로덕션 워크로드에는 권장되지 않습니다. 특정 기능이 지원되지 않거나 기능이 제한될 수 있습니다. 자세한 내용은 Microsoft Azure Preview에 대한 추가 사용 약관을 참조하세요.

Azure Communication Services는 활성 통화 중에 오디오 콘텐츠를 캡처, 분석 및 처리하기 위해 오디오 스트림에 실시간으로 액세스할 수 있는 오디오 스트리밍 기능을 개발자에게 제공합니다. 오늘날 라이브 오디오 및 비디오의 전 세계 사용량이 널리 퍼져 있는 상황에서 이 콘텐츠는 온라인 모임, 온라인 회의, 고객 지원 등의 형태일 수 있습니다. 이제 개발자는 오디오 스트리밍 액세스를 통해 서버 애플리케이션을 빌드하여 통화 중인 각 참가자의 오디오 스트림을 실시간으로 캡처하고 분석할 수 있습니다. 개발자는 오디오 스트리밍을 다른 호출 자동화 작업과 결합하거나 자체 AI 모델을 사용하여 오디오 스트림을 분석할 수도 있습니다. 사용 사례에는 대화 분석을 위한 NLP 또는 에이전트가 최종 사용자와 활성 상호 작용하는 동안 에이전트에 실시간 인사이트 및 제안 제공이 포함됩니다.

이 공개 미리 보기는 개발자가 WebSocket을 통해 실시간 오디오 스트림에 액세스하여 혼합 및 혼합되지 않은 형식으로 통화의 오디오를 분석하는 기능을 지원합니다.

일반 사용 예

오디오 스트림은 여러 가지 방법으로 사용할 수 있습니다. 개발자가 애플리케이션에서 오디오 스트림을 사용하는 방법의 몇 가지 예는 다음과 같습니다.

실시간 통화 지원

향상된 AI 지원 제안 - 에이전트와 고객 간의 활성 상호 작용의 실시간 오디오 스트림을 사용하여 통화의 의도와 에이전트가 사용자 고유의 AI 모델을 사용하여 통화를 분석하는 활성 제안을 통해 고객에게 더 나은 환경을 제공하는 방법을 측정합니다.

인증

생체 인식 인증 – 음성 인식/일치 엔진/도구를 통해 통화에서 오디오를 실행하여 오디오 스트림을 사용하여 음성 인증을 수행합니다.

진행 중인 호출에서 오디오 스트림을 구독하기 위한 샘플 아키텍처 - 라이브 에이전트 시나리오

지원되는 형식

혼합 형식

통화 중인 모든 참가자의 혼합 오디오를 포함합니다. 모든 오디오는 하나의 스트림으로 평면화됩니다.

비혼합

채널당 참가자당 오디오를 포함하며, 통화의 어느 시점에서든 가장 지배적인 4명의 스피커에 대해 최대 4개의 채널을 지원합니다. 또한 화자를 결정하는 데 사용할 수 있는 participantRawID도 받게 됩니다.

추가 정보

아래 표에서는 개발자가 오디오 패킷을 애플리케이션에서 사용할 수 있는 가청 콘텐츠로 변환하는 데 도움이 되는 정보를 설명합니다.

프레임 속도: 초당 50프레인
패킷 스트림 속도: 20ms 속도
데이터 패킷: 64KB
오디오 메트릭: 16000hz의 16비트 PCM 모노
공용 문자열 데이터는 원시 PCM 파일을 만들려면 바이트 배열로 변환해야 하는 base64 문자열입니다.\

결제

오디오 스트리밍 요금이 청구되는 방법에 대한 자세한 내용은 Azure Communication Services 가격 책정 페이지를 참조하세요. 가격은 오디오 스트리밍의 통화 범주에서 찾을 수 있습니다.

다음 단계

자세한 내용은 오디오 스트리밍 빠른 시작을 확인하세요.

다음을 통해 공유