Przetwarzanie audio za pomocą stosu audio firmy Microsoft

Artykuł
10/16/2024

Microsoft Audio Stack to zestaw ulepszeń zoptymalizowanych pod kątem scenariuszy przetwarzania mowy. Obejmuje to przykłady, takie jak rozpoznawanie słów kluczowych i rozpoznawanie mowy. Składa się z różnych ulepszeń/składników, które działają na wejściowym sygnałie audio:

Tłumienie szumu — zmniejsz poziom szumu w tle.
Beamforming — lokalizowanie źródła dźwięku i optymalizowanie sygnału audio przy użyciu wielu mikrofonów.
Dereverberation — zmniejsza odbicie dźwięku z powierzchni w środowisku.
Anulowanie echa akustycznego — pomija dźwięk odtwarzany z urządzenia, gdy wejście mikrofonu jest aktywne.
Automatyczne sterowanie przyrostem — dynamicznie dopasowuje poziom głosu osoby, aby uwzględnić miękkie głośniki, długie odległości lub nieliblibrated mikrofony.

Różne scenariusze i przypadki użycia mogą wymagać różnych optymalizacji mających wpływ na zachowanie stosu przetwarzania dźwięku. Na przykład w scenariuszach telekomunikacyjnych, takich jak połączenia telefoniczne, dopuszczalne jest niewielkie zakłócenia sygnału audio po zastosowaniu przetwarzania. Dzieje się tak, ponieważ ludzie mogą nadal rozumieć mowę z wysoką dokładnością. Jest to jednak niedopuszczalne i destrukcyjne dla osoby, aby usłyszeć własny głos w echu. Kontrastuje to ze scenariuszami przetwarzania mowy, w których zniekształcony dźwięk może niekorzystnie wpłynąć na dokładność modelu rozpoznawania mowy wyuczonej maszynowo, ale dopuszczalne jest posiadanie drobnych poziomów reszt echa.

Przetwarzanie jest wykonywane w pełni lokalnie, w którym jest używany zestaw SPEECH SDK. Żadne dane audio nie są przesyłane strumieniowo do usług w chmurze firmy Microsoft do przetwarzania przez usługę Microsoft Audio Stack. Jedynym wyjątkiem jest usługa transkrypcji konwersacji, w której nieprzetworzone audio jest wysyłane do usług w chmurze firmy Microsoft do przetwarzania.

Usługa Microsoft Audio Stack obsługuje również szeroką gamę produktów firmy Microsoft:

Windows — Microsoft Audio Stack jest domyślnym potokiem przetwarzania mowy w przypadku korzystania z kategorii dźwięku mowy.
Urządzenia Microsoft Teams Displays i Microsoft Teams Rooms — wyświetlacze microsoft Teams i urządzenia Usługi Teams Rooms korzystają z usługi Microsoft Audio Stack, aby umożliwić wysokiej jakości praktyczne, oparte na głosach środowiska Cortany.

Integracja zestawu SDK usługi Mowa

Zestaw SPEECH SDK integruje usługę Microsoft Audio Stack (MAS), umożliwiając dowolnej aplikacji lub produktowi korzystanie z funkcji przetwarzania dźwięku na wejściowym dźwięku. Oto niektóre kluczowe funkcje usługi Microsoft Audio Stack dostępne za pośrednictwem zestawu SPEECH SDK:

Wejście i wejście pliku mikrofonu w czasie rzeczywistym — przetwarzanie stosu audio firmy Microsoft można zastosować do danych wejściowych mikrofonu w czasie rzeczywistym, strumieni i danych wejściowych opartych na plikach.
Wybór ulepszeń — aby umożliwić pełną kontrolę nad scenariuszem, zestaw SDK umożliwia wyłączenie poszczególnych ulepszeń , takich jak dereverberation, tłumienie szumów, automatyczna kontrola przyrostu i anulowanie echa akustycznego. Jeśli na przykład scenariusz nie zawiera renderowania dźwięku wyjściowego, który musi zostać pominięty z dźwięku wejściowego, możesz wyłączyć anulowanie echa akustycznego.
Niestandardowe geometrie mikrofonów — zestaw SDK umożliwia udostępnianie własnych niestandardowych informacji o geometrii mikrofonu, oprócz obsługi wstępnie ustawionych geometrii, takich jak liniowy mikrofon dwumisowy, liniowy czteromisowy i cykliczne tablice 7-mikrofonowe (zobacz więcej informacji na temat obsługiwanych geometrii wstępnych w zaleceniach dotyczących macierzy mikrofonów).
Kąty kształtujące belki — można podać konkretne kąty wiązki w celu zoptymalizowania danych wejściowych audio pochodzących z wstępnie określonej lokalizacji względem mikrofonów.

Minimalne wymagania dotyczące korzystania z usługi Microsoft Audio Stack

Usługa Microsoft Audio Stack może być używana przez dowolny produkt lub aplikację, która spełnia następujące wymagania:

Nieprzetworzony dźwięk — usługa Microsoft Audio Stack wymaga nieprzetworzonego (nieprzetworzonego) dźwięku jako danych wejściowych w celu uzyskania najlepszych wyników. Zapewnienie dźwięku, który jest już przetworzony, ogranicza zdolność stosu audio do wykonywania ulepszeń w wysokiej jakości.
Geometrie mikrofonów — informacje geometryczne dotyczące każdego mikrofonu na urządzeniu są wymagane do poprawnego wykonania wszystkich ulepszeń oferowanych przez stos audio firmy Microsoft. Informacje obejmują liczbę mikrofonów, ich układ fizyczny i współrzędne. Obsługiwane są maksymalnie 16 kanałów mikrofonu wejściowego.
Pętla zwrotna lub dźwięk referencyjny — kanał audio reprezentujący dźwięk odtwarzany z urządzenia jest wymagany do przeprowadzenia anulowania echa akustycznego.
Format danych wejściowych — usługa Microsoft Audio Stack obsługuje próbkowanie w przypadku częstotliwości próbkowania, które są integralnymi wielokrotnościami 16 kHz. Wymagana jest minimalna częstotliwość próbkowania wynosząca 16 kHz. Ponadto obsługiwane są następujące formaty: 32-bitowy interfejs IEEE little endian float, 32-bitowy mały endian zalogowany int, 24-bitowy mały endian zalogowany, 16-bitowy mały endian zalogowany int i 8-bitowy zalogowany int.

Używanie zestawu SPEECH SDK do przetwarzania dźwięku

Udostępnij za pośrednictwem

Przetwarzanie audio za pomocą stosu audio firmy Microsoft

Integracja zestawu SDK usługi Mowa

Minimalne wymagania dotyczące korzystania z usługi Microsoft Audio Stack

Opinia

Dodatkowe zasoby

Udostępnij za pośrednictwem

Przetwarzanie audio za pomocą stosu audio firmy Microsoft

Integracja zestawu SDK usługi Mowa

Minimalne wymagania dotyczące korzystania z usługi Microsoft Audio Stack

Powiązana zawartość

Opinia

Dodatkowe zasoby