다음을 통해 공유


사용자 입력 수집

Azure Communication Services 통화 자동화 인식 작업의 릴리스로 개발자는 이제 IVR 또는 문의 센터 애플리케이션을 개선하여 사용자 입력을 인식할 수 있습니다. 가장 일반적인 인식 시나리오 중 하나는 사용자에 대한 메시지를 재생하는 것입니다. 이 메시지는 사용자에게 표시되어 응답을 제공합니다. 그 다음 이 응답은 애플리케이션에서 인식되고 애플리케이션이 인식되면 해당 작업을 수행합니다. 호출자의 입력은 DTMF(호출 디바이스의 숫자를 통한 사용자 입력), 음성 또는 DTMF와 음성의 조합을 포함하는 여러 가지 방법으로 수신할 수 있습니다.

음성 텍스트 변환을 사용한 음성 인식

Azure Communications Services와 Azure AI 서비스 통합을 사용하면 인식 작업을 통해 오디오를 실시간으로 분석하여 음성을 텍스트로 변환할 수 있습니다. 기본적으로 Microsoft는 유니버설 언어 모델을 Microsoft 소유의 데이터로 학습하고 일반적으로 사용되는 음성 언어를 반영하는 기본 모델로 활용합니다. 이 모델은 다양한 공통 도메인을 나타내는 방언 및 음성학으로 미리 학습됩니다. 지원되는 언어에 대한 자세한 내용은 Speech Service에 대한 언어 및 음성 지원을 참조하세요.

DTMF

DTMF(이중 톤 다중 주파수) 인식은 숫자를 누를 때 전화로 생성되는 톤/사운드를 이해하는 프로세스입니다. 수신 측에 있는 장비는 특정 톤을 수신한 다음, 이를 명령으로 변환합니다. 이러한 명령은 일반적으로 IVR 시나리오에서 메뉴를 탐색할 때 사용자 의도를 나타내거나 경우에 따라 사용자가 휴대폰 키패드를 통해 제공해야 하는 중요한 정보를 캡처하는 데 사용할 수 있습니다.

DTMF 이벤트 및 관련 톤

이벤트 어조
0 제로
1 하나
2 2
3 3단계
4 4
5 5
6
7
8
9
A A
B B
C C
D D
* 별표
# 파운드

일반 사용 예

인식 작업은 여러 가지 이유로 사용할 수 있습니다. 다음은 개발자가 애플리케이션에서 인식 작업을 사용하는 방법에 대한 몇 가지 예입니다.

셀프 서비스 프롬프트를 사용하여 사용자 경험 개선

  • 사용자가 통화를 제어할 수 있음 - 입력 인식을 사용하도록 설정하면 호출자가 IVR 메뉴를 탐색하고 쿼리를 확인하는 데 사용할 수 있는 정보를 제공할 수 있습니다.
  • 사용자 정보 수집 - 입력 인식을 사용하도록 설정하면 애플리케이션이 호출자로부터 입력을 수집할 수 있습니다. 계정 번호, 신용 카드 정보 등과 같은 정보일 수 있습니다.
  • 호출자 응답 기록 - 음성 인식을 사용하면 사용자 입력을 수집하고 오디오를 텍스트로 기록하고 분석하여 특정 비즈니스 작업을 수행할 수 있습니다.

오디오 프롬프트 인터럽트

사용자는 IVR 메뉴에서 종료하고 사용자 에이전트와 대화할 수 있음 - DTMF가 중단되면 애플리케이션을 통해 사용자가 IVR 메뉴의 흐름을 중단하고 사용자 에이전트와 채팅할 수 있습니다.

음성 인식을 사용한 호출에서 사용자 입력을 수집하기 위한 샘플 아키텍처

Recognize AI Action의 샘플 아키텍처를 보여 주는 다이어그램.

호출에서 사용자 입력을 수집하기 위한 샘플 아키텍처

인식 작업

알려진 제한 사항

  • 대역 내 DTMF는 지원되지 않으며 대신 RFC 2833 DTMF를 사용합니다.
  • 텍스트 음성 변환 텍스트 프롬프트는 최대 400자를 지원합니다. 프롬프트가 이보다 긴 경우 텍스트 음성 변환 기반 재생 작업에 SSML을 사용하는 것이 좋습니다.
  • 음성 서비스 할당량 한도를 초과하는 시나리오의 경우 여기에 설명된 단계에 따라 이 한도 증가를 요청할 수 있습니다.

다음 단계