마이크 배열 권장 사항

이 문서에서는 Speech SDK와 함께 사용하도록 사용자 지정된 마이크 배열을 디자인하는 방법을 알아봅니다. 이는 음성 솔루션용 하드웨어를 선택, 지정 또는 빌드하는 경우에 가장 적합합니다.

Speech SDK는 마이크 형상, 구성 요소 선택 및 아키텍처를 포함하여 이러한 지침에 따라 설계된 마이크 배열에서 가장 잘 작동합니다.

마이크 기하 구조

Microsoft 오디오 스택과 함께 사용할 경우 다음 배열 기하 구조를 사용하는 것이 좋습니다. 특정 애플리케이션, 사용자 시나리오 및 디바이스 폼 팩터 종속성이 포함된 더 많은 수의 마이크를 사용하여 음원의 위치 및 주변 소음을 제거하는 기능이 개선되었습니다.

마이크 채널은 이전에 각 배열에 대해 설명한 번호 매기기에 따라 0부터 오름차순으로 정렬되어야 합니다. Microsoft 오디오 스택에서는 에코 제거를 수행하기 위해 오디오 재생의 또 다른 참조 스트림이 필요합니다.

노이즈와 왜곡 없는 신호를 정확하게 재현하려면 마이크 구성 요소를 선택해야 합니다.

마이크 선택 시 권장되는 속성은 다음과 같습니다.

*고품질 통신(VoIP) 애플리케이션에는 더 높은 샘플링 속도 또는 "더 넓은" 주파수 범위가 필요할 수 있습니다.

사용되는 구성 요소의 성능 저하를 방지하려면 좋은 구성 요소 선택과 좋은 전기 음향 통합이 결합되어야 합니다. 고유한 사용 사례에는 더 많은 요구 사항(예: 작동 온도 범위)이 필요할 수도 있습니다.

디바이스에 통합된 마이크 배열의 성능은 구성 요소 사양과 다릅니다. 통합 후 마이크가 잘 맞는지 확인하는 것이 중요합니다. 따라서 고정 이득 또는 EQ 후에 측정된 디바이스 성능은 다음 권장 사항을 충족해야 합니다.

**THD를 측정하려면 왜곡이 낮은 스피커가 필요합니다(예: Neumann KH120).

**고품질 통신(VoIP) 애플리케이션에는 "더 넓은" 주파수 범위가 필요할 수 있습니다.

스피커가 포함된 음성 인식 디바이스에는 반향 제거가 필요하므로 스피커 선택 및 통합에 대한 추가 권장 사항이 제공됩니다.

매개 변수	권장
선형 고려 사항	스피커 참조 후 비선형 처리가 없습니다. 그렇지 않으면 하드웨어 기반 루프백 참조 스트림이 필요합니다.
스피커 루프백	WASAPI, 개인 API, 사용자 지정 ALSA 플러그인(Linux)을 통해 제공되거나 펌웨어 채널을 통해 제공됩니다.
THD%	3차 옥타브 밴드 최소 5차, 70dBA 재생 @ 0.8m ≤ 6.3%, 315-500Hz ≤ 5%, 630-5000Hz
마이크에 에코 결합	> -10dB TCLw, ITU-T G.122 Annex B.4 방법 사용, 마이크 수준으로 정규화 TCLw = TCLwmeasured + (측정된 수준 - 목표 출력 민감도) TCLw = TCLwmeasured + (측정된 수준 - (-26))

마이크를 디바이스에 통합하는 경우 다음과 같은 아키텍처 지침이 필요합니다.

매개 변수	권장
마이크 포트 유사성	배열에서 모든 마이크 포트의 길이가 동일합니다.
마이크 포트 치수	포트 크기 Ø0.8-1.0mm. 포트 길이/포트 지름 < 2
마이크 밀봉	밀봉 개스킷이 스택업에서 균일하게 구현됩니다. 폼 개스킷의 경우 > 70%의 압축비가 좋습니다.
마이크 안정성	먼지와 유입을 막으려면 메시를 사용해야 합니다(하단 포팅 마이크용 PCB와 밀봉 개스킷/상단 커버 사이).
마이크 격리	특히 통합 스피커로 인한 모든 진동 경로를 격리하기 위해 구조를 통해 고무 개스킷 및 진동을 분리합니다.
샘플링 클록	디바이스 오디오는 지터를 사용하지 않아야 하고 낮은 드리프트로 드롭 아웃해야 합니다.
레코드 기능	디바이스는 개별 채널 원시 스트림을 동시에 기록할 수 있어야 합니다.
USB	모든 USB 오디오 입력 디바이스는 USB 오디오 디바이스 Rev3 사양에 따라 설명자를 설정해야 합니다.
마이크 기하 구조	드라이버에서 마이크 배열 기하 구조 설명자를 올바르게 구현해야 합니다.
검색 가능성	디바이스에는 검색할 수 없거나 제어할 수 없는 하드웨어, 펌웨어 또는 디바이스에 대한 타사 소프트웨어 기반 비선형 오디오 처리 알고리즘이 없어야 합니다.
캡처 형식	캡처 형식은 16kHz의 최소 샘플링 속도와 권장되는 24비트 깊이를 사용해야 합니다.

해당하는 경우 배열은 USB 호스트(예: MAS(Microsoft 오디오 스택)을 실행하는 SoC) 및 음성 서비스 또는 기타 애플리케이션에 대한 인터페이스에 연결할 수 있습니다.

PDM에서 TDM으로의 변환과 같은 하드웨어 구성 요소는 마이크의 동적 범위와 SNR이 리샘플러 내에서 유지되도록 해야 합니다.

고속 USB 오디오 클래스 2.0은 더 높은 샘플 속도와 비트 깊이에서 최대 7개 채널에 필요한 대역폭을 제공하기 위해 모든 오디오 MCU 내에서 지원되어야 합니다.