Udostępnij za pośrednictwem


Co nowego w usłudze Azure AI Speech?

Usługa Azure AI Speech jest aktualizowana w sposób ciągły. Aby być na bieżąco z najnowszymi wydarzeniami, ten artykuł zawiera informacje o nowych wersjach i funkcjach.

Ostatnie najważniejsze informacje

Informacje o wersji

Wybieranie usługi lub zasobu

Zestaw Speech SDK 1.42.0: wersja z grudnia 2024 r.

Nowe funkcje

  • Java: dodano interfejsy API rejestrowania diagnostyki przy użyciu klas FileLogger, MemoryLogger, EventLogger i SpxTrace.
  • Obsługa wysyłania właściwości JSON "details" uczestnika spotkania do usługi
  • Przejdź: Dodano identyfikator właściwości publicznej SpeechServiceConnection_ProxyHostBypass w celu określenia hostów, dla których serwer proxy nie jest używany.
  • JavaScript, Go: dodano identyfikator właściwości publicznej Speech_SegmentationStrategy w celu określenia, kiedy zakończyła się fraza mówiona, a ostatni rozpoznany wynik powinien zostać wygenerowany (w tym segmentacja semantyczna)
  • JavaScript, Go: dodano identyfikator właściwości publicznej Speech_SegmentationMaximumTimeMs określić koniec frazy mówionej na podstawie czasu w języku Java, Python, C#, C++

Poprawki błędów

  • Naprawiono osadzony głos TTS (re)ładowany dla każdej syntezy, jeśli nazwa głosu nie jest ustawiona.
  • Rozwiązano problemy z obliczaniem przesunięcia podczas korzystania z elementu MeetingTranscriber w niektórych scenariuszach.
  • Naprawiono potencjalne zakleszczenie podczas równoległego rejestrowania wielu odbiorników zdarzeń diagnostycznych.
  • (JavaScript) Naprawiono możliwe utracone wyniki NoMatch, gdy na końcu dźwięku. Ta poprawka dostosowuje również zachowanie na końcu mowy do innych języków zestawu SDK i może spowodować, że niektóre puste zdarzenia nie są już wywoływane.
  • (JavaScript) Przesunięcie poprawki w wyniku JSON w celu wyrównania do przesunięcia obiektów wynikowych. Wcześniej tylko właściwość przesunięcia obiektu wynikowego została naprawiona, aby uwzględnić ponowne nawiązywanie połączeń z usługą.
  • Język Go: naprawiono błąd kompilacji https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2639
  • Naprawiono przesunięcia wyniku w transkrypcji spotkania podczas ponownego nawiązywania połączenia z usługą.
  • Naprawiono zakleszczenie w rejestrowaniu.

Przykłady

  • Zaktualizowano przykłady języka C#, aby używać platformy .NET 8.0.
  • Przykład języka Java używa interfejsu API rejestrowania diagnostyki pokazującego użycie nowych klas rejestrowania diagnostycznego.

Wydanie z 2024 r.

Rozszerzenie azure AI Speech Toolkit dla programu Visual Studio Code

Rozszerzenie azure AI Speech Toolkit jest teraz dostępne dla użytkowników programu Visual Studio Code. Zawiera listę szybkich startów mowy i przykłady scenariuszy, które można łatwo skompilować i uruchomić za pomocą prostych kliknięć. Aby uzyskać więcej informacji, zobacz Azure AI Speech Toolkit in Visual Studio Code Marketplace (Zestaw narzędzi azure AI Speech Toolkit w witrynie Visual Studio Code Marketplace).

Przykłady kodu awatara zamiany tekstu na mowę

Dodaliśmy tekst do przykładów kodu awatara mowy dla systemów Android i iOS. Te przykłady pokazują, jak używać tekstu w czasie rzeczywistym do rozpoznawania awatarów mowy w aplikacjach mobilnych.

Zestaw Speech SDK 1.41.1: wydanie z października 2024 r.

Nowe funkcje

  • Dodano obsługę systemów Amazon Linux 2023 i Azure Linux 3.0.
  • Dodano identyfikator właściwości publicznej SpeechServiceConnection_ProxyHostBypass w celu określenia hostów, dla których serwer proxy nie jest używany.
  • Dodano właściwości do kontrolowania nowych strategii segmentacji fraz.

Poprawki błędów

Zmiany powodujące niezgodność

  • Obsługa rozpoznawania słów kluczowych w systemie Windows ARM 32-bitowa została usunięta z powodu braku dostępnego dla tej platformy wymaganego środowiska uruchomieniowego ONNX.

Zestaw Speech SDK 1.40: wydanie z sierpnia 2024 r.

Uwaga

Zestaw Speech SDK w wersji 1.39.0 był wersją wewnętrzną i nie brakuje go.

Nowe funkcje

  • Dodano obsługę przesyłania strumieniowego skompresowanego dźwięku G.722 w funkcji rozpoznawania mowy.
  • Dodano obsługę ustawienia pitch, rate i volume w strumieniu wejściowym tekstu w syntezie mowy.
  • Dodano obsługę osobistego przesyłania strumieniowego tekstu wejściowego głosu przez wprowadzenie PersonalVoiceSynthesisRequest do syntezy mowy. Ten interfejs API jest w wersji zapoznawczej i może ulec zmianie w przyszłych wersjach.
  • Dodano obsługę diaryzacji wyników pośrednich, gdy ConversationTranscriber jest używany.
  • Usunięto obsługę systemu CentOS/RHEL 7 ze względu na system CentOS 7 EOL i koniec wsparcia konserwacyjnego systemu RHEL 7 2.
  • Korzystanie z osadzonych modeli mowy wymaga teraz licencji modelu zamiast klucza modelu. Jeśli jesteś istniejącym klientem osadzonej mowy i chcesz przeprowadzić uaktualnienie, skontaktuj się z osobą odpowiedzialną za pomoc techniczną w firmie Microsoft, aby uzyskać szczegółowe informacje na temat aktualizacji modelu.

Poprawki błędów

Przykłady

  • Zaktualizowano osadzone przykłady mowy, aby używać licencji modelu zamiast klucza.

Zestaw Speech SDK 1.38.0: wersja z czerwca 2024 r.

Nowe funkcje

  • Uaktualnij wymagania dotyczące platformy zestawu Speech SDK dla systemu Linux:
    • Nowy minimalny plan bazowy to Ubuntu 20.04 LTS lub zgodny z wersją 2.31 lub nowszą glibc .
    • Pliki binarne dla systemu Linux x86 są usuwane zgodnie z obsługą platformy Ubuntu 20.04.
    • Należy pamiętać, że system RHEL/CentOS 7 pozostaje obsługiwany do 30 czerwca (koniec centOS 7 i koniec RHEL 7 Maintenance Support 2). Pliki binarne dla nich zostaną usunięte w wersji zestawu Speech SDK 1.39.0.
  • Dodano obsługę protokołu OpenSSL 3 w systemie Linux.
  • Dodano obsługę formatu wyjściowego audio g722-16khz-64 kbps z syntezatorem mowy.
  • Dodano obsługę wysyłania komunikatów za pośrednictwem obiektu połączenia z syntetyzatorem mowy.
  • Dodaj interfejsy API Start/StopKeywordRecognition w językach Objective-C i Swift.
  • Dodaj interfejs API do wybierania niestandardowej kategorii modelu tłumaczenia.
  • Aktualizowanie użycia usługi GStreamer za pomocą syntetyzatora mowy.

Poprawki błędów

  • Naprawiono błąd "Rozmiar komunikatu protokołu Websocket nie może przekraczać 65 536 bajtów" podczas uruchamiania/stopKeywordRecognition.
  • Napraw błąd segmentacji języka Python podczas syntezy mowy.

Przykłady

  • Zaktualizuj przykłady języka C#, aby domyślnie używać platformy .NET 6.0.

Zestaw Speech SDK 1.37.0: wydanie z kwietnia 2024 r.

Nowe funkcje

  • Dodano obsługę przesyłania strumieniowego tekstu wejściowego w syntezie mowy.
  • Zmień domyślny głos syntezy mowy na en-US-AvaMultilingualNeural.
  • Zaktualizuj kompilacje systemu Android, aby używać biblioteki OpenSSL 3.x.

Poprawki błędów

Przykłady

  • Zaktualizowano pod kątem nowych funkcji.

Zestaw Speech SDK 1.36.0: wersja z marca 2024 r.

Nowe funkcje

  • Dodano obsługę identyfikacji języka w translacji wielojęzycznej w punktach końcowych w wersji 2 przy użyciu polecenia AutoDetectSourceLanguageConfig::FromOpenRange().

Poprawki błędów

  • Naprawiono zdarzenie SyntezaCanceled nie zostało wyzwolone, jeśli zatrzymanie jest wywoływane podczas zdarzenia SynthesisStarted.

  • Rozwiązano problem z szumem w osadzonej syntezie mowy.

  • Napraw awarię w osadzonym rozpoznawaniu mowy podczas równoległego uruchamiania wielu aparatów rozpoznawania.

  • Napraw ustawienie trybu wykrywania fraz w punktach końcowych w wersji 1/2.

  • Poprawki różnych problemów z usługą Microsoft Audio Stack.

Przykłady

  • Aktualizacje nowych funkcji.

Zestaw Speech SDK 1.35.0: wersja z lutego 2024 r.

Nowe funkcje

  • Zmień domyślny tekst na głos mowy z en-US-JennyMultilingualNeural na en-US-AvaNeural.
  • Obsługa szczegółów na poziomie wyrazów w osadzonych wynikach tłumaczenia mowy przy użyciu szczegółowego formatu danych wyjściowych.

Poprawki błędów

  • Napraw interfejs API pobierania pozycji AudioDataStream w języku Python.
  • Napraw tłumaczenie mowy przy użyciu punktów końcowych w wersji 2 bez wykrywania języka.
  • Napraw losową awarię i zduplikowane zdarzenia granicy wyrazów w osadzonym tekście na mowę.
  • Zwróć prawidłowy kod błędu anulowania dla wewnętrznego błędu serwera w połączeniach protokołu WebSocket.
  • Napraw błąd ładowania biblioteki FPIEProcessor.dll, gdy platforma MAS jest używana z językiem C#.

Przykłady

  • Drobne aktualizacje formatowania dla przykładów rozpoznawania osadzonego.

Zestaw Speech SDK 1.34.1: wydanie ze stycznia 2024 r.

Zmiany powodujące niezgodność

  • Tylko poprawki błędów

Nowe funkcje

  • Tylko poprawki błędów

Poprawki błędów

  • Poprawka regresji wprowadzona w wersji 1.34.0, w której utworzono adres URL punktu końcowego usługi z nieprawidłowymi ustawieniami regionalnymi dla użytkowników w kilku regionach Chin.

Zestaw Speech SDK 1.34.0: wydanie z listopada 2023 r.

Zmiany powodujące niezgodność

  • SpeechRecognizer Program jest aktualizowany w celu domyślnego używania nowego punktu końcowego (czyli gdy nie określa jawnie adresu URL), który nie obsługuje już parametrów ciągu zapytania dla większości właściwości. Zamiast ustawiać parametry ciągu zapytania bezpośrednio za pomocą parametru ServicePropertyChannel.UriQueryParameter, użyj odpowiednich funkcji interfejsu API.

Nowe funkcje

  • Zgodność z platformą .NET 8 (poprawka z https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2170 wyjątkiem ostrzeżenia o centos7-x64)
  • Obsługa osadzonych metryk wydajności mowy, które mogą służyć do oceny możliwości urządzenia do uruchamiania osadzonej mowy.
  • Obsługa identyfikacji języka źródłowego w osadzonym translacji wielojęzycznej.
  • Obsługa osadzonej zamiany mowy na tekst, zamiany tekstu na mowę i tłumaczenie dla systemów iOS i Swift/Objective-C wydanych w wersji zapoznawczej.
  • Obsługa osadzona jest dostępna w usłudze MicrosoftCognitiveServicesSpeechEmbedded-iOS Cocoapod.

Poprawki błędów

  • Poprawka dotycząca wzrostu rozmiaru binarnego zestawu SDK systemu iOS x2 razy · Problem nr 2113 · Azure-Samples/cognitive-services-speech-sdk (github.com)
  • Poprawka dotycząca niemożności pobrania sygnatur czasowych na poziomie wyrazów z usługi Azure Speech do interfejsu API tekstu · Problem nr 2156 · Azure-Samples/cognitive-services-speech-sdk (github.com)
  • Poprawka dotycząca fazy niszczenia okna dialogowegoServiceConnector w celu poprawnego rozłączenia zdarzeń. To powodowało awarie od czasu do czasu.
  • Poprawka wyjątku podczas tworzenia rozpoznawania, gdy jest używana usługa MAS.
  • FPIEProcessor.dll z pakietu NuGet Microsoft.CognitiveServices.Speech.Extension.MAS dla systemu Windows UWP x64 i Arm64 miały zależność od bibliotek środowiska uruchomieniowego VC dla natywnego języka C++. Problem został poprawiony przez zaktualizowanie zależności w celu poprawienia bibliotek środowiska uruchomieniowego VC (dla platformy UWP).
  • Poprawka dotycząca wywołań cyklicznych [MAS] w celu rozpoznawania potencjalnego klienta usługi RecognizeOnceAsync w celu SPXERR_ALREADY_INITIALIZED podczas korzystania z usługi MAS · Problem nr 2124 · Azure-Samples/cognitive-services-speech-sdk (github.com)
  • Poprawka dotycząca awarii osadzonego rozpoznawania mowy podczas użycia list fraz.

Przykłady

  • Osadzone przykłady systemu iOS dla zamiany mowy na tekst, zamiany tekstu na mowę i tłumaczenie.

Interfejs wiersza polecenia usługi Mowa w wersji 1.34.0: wydanie z listopada 2023 r.

Nowe funkcje

  • Obsługa danych wyjściowych zdarzeń granic słów podczas synchronizowania mowy.

Poprawki błędów

  • Zaktualizowano zależność JMESPath do najnowszej wersji, ulepsza oceny ciągów

Zestaw Speech SDK 1.33.0: wydanie z października 2023 r.

Powiadomienie o zmianach powodujących niezgodność

  • Nowy pakiet NuGet dodany dla usługi Microsoft Audio Stack (MAS) jest teraz wymagany do dołączania przez aplikacje korzystające z rozwiązania MAS w swoich plikach konfiguracji pakietu.

Nowe funkcje

  • Dodano nowy pakiet NuGet Microsoft.CognitiveServices.Speech.Extension.MAS.nupkg, który zapewnia lepszą wydajność anulowania echa podczas korzystania z usługi Microsoft Audio Stack
  • Ocena wymowy: dodano obsługę prosody i oceny zawartości, która może ocenić mowę mówionej pod względem prosodii, słownictwa, gramatyki i tematu.

Poprawki błędów

Przykłady

Interfejs wiersza polecenia usługi Mowa w wersji 1.33.0: wydanie z października 2023 r.

Nowe funkcje

  • Obsługa danych wyjściowych zdarzeń granic słów podczas synchronizowania mowy.

Poprawki błędów

  • Brak

Zestaw Speech SDK 1.32.1: wersja z września 2023 r.

Poprawki błędów

  • Aktualizacje pakietów systemu Android z najnowszymi poprawkami zabezpieczeń z biblioteki OpenSSL1.1.1v
  • JS — dodano właściwość WebWorkerLoadType, aby umożliwić obejście obciążenia adresu URL danych dla procesu roboczego przekroczenia limitu czasu
  • JS — naprawianie rozłączenia tłumaczenia konwersacji po 10 minutach
  • JS — token uwierzytelniania tłumaczenia konwersacji z konwersacji jest teraz propagowany do połączenia usługi tłumaczenia

Przykłady

Zestaw Speech SDK 1.31.0: wersja z sierpnia 2023 r.

Nowe funkcje

  • Obsługa diaryzacji w czasie rzeczywistym jest dostępna w publicznej wersji zapoznawczej z zestawem Speech SDK 1.31.0. Ta funkcja jest dostępna w następujących zestawach SDK: C#, C++, Java, JavaScript, Python i Objective-C/Swift.

  • Zsynchronizowana granica słowa syntezy mowy i zdarzenia viseme z odtwarzaniem dźwięku

Zmiany powodujące niezgodność

  • Nazwa byłego scenariusza "transkrypcji konwersacji" została zmieniona na "transkrypcja spotkań". Na przykład użyj polecenia MeetingTranscriber zamiast ConversationTranscriber, a nie CreateConversationAsync.CreateMeetingAsync Chociaż nazwy obiektów i metod zestawu SDK uległy zmianie, zmiana nazwy nie zmienia samej funkcji. Użyj obiektów transkrypcji spotkań na potrzeby transkrypcji spotkań z profilami użytkowników i podpisami głosowymi. Aby uzyskać więcej informacji, zobacz Transkrypcja spotkania. Te zmiany nie mają wpływu na obiekty i metody tłumaczenia konwersacji. Nadal można używać ConversationTranslator obiektu i jego metod na potrzeby scenariuszy tłumaczenia spotkań.
  • W przypadku diaryzacji w czasie rzeczywistym wprowadzono nowy ConversationTranscriber obiekt. Nowy model obiektów "transkrypcja konwersacji" i wzorce wywołań są podobne do ciągłego rozpoznawania obiektu SpeechRecognizer . Kluczową różnicą jest to, że ConversationTranscriber obiekt jest przeznaczony do użycia w scenariuszu konwersacji, w którym chcesz odróżnić wiele osób mówiących (diarization). Profile użytkowników i podpisy głosowe nie mają zastosowania. Aby uzyskać więcej informacji, zobacz przewodnik Szybki start dotyczący diaryzacji w czasie rzeczywistym.

W tej tabeli przedstawiono poprzednie i nowe nazwy obiektów dla diaryzacji w czasie rzeczywistym i transkrypcji spotkań. Nazwa scenariusza znajduje się w pierwszej kolumnie, poprzednie nazwy obiektów znajdują się w drugiej kolumnie, a nowe nazwy obiektów znajdują się w trzeciej kolumnie.
Nazwa scenariusza Poprzednie nazwy obiektów Nowe nazwy obiektów
Diaryzacja w czasie rzeczywistym Nie dotyczy ConversationTranscriber
Transkrypcja spotkania ConversationTranscriber
ConversationTranscriptionEventArgs
ConversationTranscriptionCanceledEventArgs
ConversationTranscriptionResult
RemoteConversationTranscriptionResult
RemoteConversationTranscriptionClient
RemoteConversationTranscriptionResult
Participant1
ParticipantChangedReason1
User1
MeetingTranscriber
MeetingTranscriptionEventArgs
MeetingTranscriptionCanceledEventArgs
MeetingTranscriptionResult
RemoteMeetingTranscriptionResult
RemoteMeetingTranscriptionClient
RemoteMeetingTranscriptionResult
Participant
ParticipantChangedReason
User
Meeting2

1 Obiekty Participant, ParticipantChangedReasoni User mają zastosowanie zarówno do scenariuszy transkrypcji spotkania, jak i tłumaczenia spotkań.

2 Obiekt Meeting jest nowy i jest używany z obiektem MeetingTranscriber .

Poprawki błędów

Przykłady

Zestaw SPEECH SDK 1.30.0: wersja z lipca 2023 r.

Nowe funkcje

  • C++, C#, Java — dodano obsługę DisplayWords szczegółowych wyników funkcji rozpoznawania mowy osadzonej.
  • Objective-C/Swift — dodano obsługę ConnectionMessageReceived zdarzenia w języku Objective-C/Swift.
  • Objective-C/Swift — ulepszone modele wyszukiwania słów kluczowych dla systemu iOS. Ta zmiana zwiększyła rozmiar niektórych pakietów, które zawierają pliki binarne systemu iOS (takie jak NuGet, XCFramework). Pracujemy nad zmniejszeniem rozmiaru przyszłych wersji.

Poprawki błędów

  • Rozwiązano problem z przeciekiem pamięci podczas korzystania z aparatu rozpoznawania mowy za pomocą funkcji PhraseListGrammar, co było zgłaszane przez klienta (problem z usługą GitHub).
  • Naprawiono zakleszczenie tekstu w interfejsie API otwierania połączenia mowy.

Więcej notatek

  • Java — niektóre metody interfejsu API języka Java zostały zmienione wewnętrznie na pakiet internal, protected lub private. public Ta zmiana nie powinna mieć wpływu na deweloperów, ponieważ nie oczekujemy, że aplikacje będą z nich korzystać. Tutaj zanotowano przejrzystość.

Przykłady

Zestaw Speech SDK 1.29.0: wersja z czerwca 2023 r.

Nowe funkcje

  • C++, C#, Java — wersja zapoznawcza osadzonych interfejsów API tłumaczenia mowy. Teraz możesz wykonać tłumaczenie mowy bez połączenia z chmurą!
  • JavaScript — ciągła identyfikacja języka (LID) jest teraz włączona na potrzeby tłumaczenia mowy.
  • JavaScript — współtworzenie społeczności w celu dodania LocaleName właściwości do VoiceInfo klasy. Dziękujemy użytkownikowi usługi GitHub shivsarthak za żądanie ściągnięcia.
  • C++, C#, Java — dodano obsługę ponownego próbkowania tekstu osadzonego do danych wyjściowych mowy z częstotliwości próbkowania 16 kHz do 48 kHz.
  • Dodano obsługę hi-IN ustawień regionalnych w rozpoznawaniu intencji z prostym dopasowaniem wzorca.

Poprawki błędów

  • Naprawiono awarię spowodowaną przez stan wyścigu w rozpoznawaniu mowy podczas niszczenia obiektu, jak pokazano w niektórych naszych testach systemu Android
  • Naprawiono możliwe zakleszczenia w rozpoznawaniu intencji za pomocą prostego dopasowania wzorca

Przykłady

  • Nowe osadzone przykłady tłumaczenia mowy

Zestaw Speech SDK 1.28.0: wydanie z maja 2023 r.

Zmiana powodująca niezgodność

  • Zestaw SDK języka JavaScript: protokół OCSP (Online Certificate Status Protocol) został usunięty. Dzięki temu klienci mogą lepiej dostosować się do standardów przeglądarki i węzłów na potrzeby obsługi certyfikatów. Wersja 1.28 i nowsze nie będą już zawierać naszego niestandardowego modułu OCSP.

Nowe funkcje

  • Rozpoznawanie mowy osadzonej jest teraz zwracane NoMatchReason::EndSilenceTimeout , gdy upłynął limit czasu ciszy na końcu wypowiedzi. Jest to zgodne z zachowaniem podczas rozpoznawania przy użyciu usługi rozpoznawania mowy w czasie rzeczywistym.
  • Zestaw SDK języka JavaScript: ustaw właściwości przy SpeechTranslationConfig użyciu PropertyId wartości wyliczenia.

Poprawki błędów

  • Język C# w systemie Windows — naprawianie potencjalnego stanu wyścigu/zakleszczenia w rozszerzeniu audio systemu Windows. W scenariuszach, w których zarówno szybkie usuwanie modułu renderowania dźwięku, jak i użycie metody Syntetyzatora do zatrzymania, bazowe zdarzenie nie zostało zresetowane przez zatrzymanie i może spowodować, że obiekt renderatora nigdy nie zostanie usunięty, a jednocześnie może przechowywać globalną blokadę do usuwania, zamrażając wątek dotnet GC.

Przykłady

  • Dodano przykład osadzonej mowy dla interfejsu MAUI.
  • Zaktualizowano przykład osadzonej mowy dla języka Java dla systemu Android w celu uwzględnienia tekstu na mowę.

Zestaw Speech SDK 1.27.0: wersja z kwietnia 2023 r.

Powiadomienie o nadchodzących zmianach

  • Planujemy usunięcie protokołu OCSP (Online Certificate Status Protocol) w następnej wersji zestawu JAVAScript SDK. Dzięki temu klienci mogą lepiej dostosować się do standardów przeglądarki i węzłów na potrzeby obsługi certyfikatów. Wersja 1.27 to ostatnia wersja zawierająca nasz niestandardowy moduł OCSP.

Nowe funkcje

  • JavaScript — dodano obsługę danych wejściowych mikrofonu z przeglądarki za pomocą funkcji identyfikacji i weryfikacji osoby mówiącej.
  • Rozpoznawanie mowy osadzonej — obsługa aktualizacji ustawień PropertyId::Speech_SegmentationSilenceTimeoutMs .

Poprawki błędów

  • Ogólne — aktualizacje niezawodności w logice ponownego łączenia usługi (wszystkie języki programowania z wyjątkiem języka JavaScript).
  • Ogólne — naprawianie konwersji ciągów przeciekających pamięci w systemie Windows (wszystkie odpowiednie języki programowania z wyjątkiem języka JavaScript).
  • Rozpoznawanie mowy osadzonej — naprawa awarii w funkcji rozpoznawania mowy francuskiej podczas korzystania z niektórych wpisów listy gramatycznej.
  • Dokumentacja kodu źródłowego — poprawki do dokumentacji zestawu SDK dotyczące komentarzy dokumentacji związanych z rejestrowaniem audio w usłudze.
  • Rozpoznawanie intencji — naprawianie priorytetów dopasowywania wzorca związanych z jednostkami listy.

Przykłady

  • Poprawnie obsłuż błąd uwierzytelniania w przykładzie transkrypcji konwersacji w języku C#( CTS).
  • Dodano przykład oceny wymowy przesyłania strumieniowego dla języków Python, JavaScript, Objective-C i Swift.

Zestaw Speech SDK 1.26.0: wersja z marca 2023 r.

Zmiany powodujące niezgodność

  • Kod bitowy został wyłączony we wszystkich miejscach docelowych systemu iOS w następujących pakietach: Cocoapod z xcframework, NuGet (dla platform Xamarin i MAUI) i aparatu Unity. Zmiana jest spowodowana wycofaniem obsługi kodu bitowego firmy Apple z wersji Xcode 14 i nowszych. Ta zmiana oznacza również, że jeśli używasz wersji Xcode 13 lub jawnie włączono kod bitowy w aplikacji przy użyciu zestawu SPEECH SDK, może wystąpić błąd z informacją" struktura nie zawiera kodu bitowego i musisz ją ponownie skompilować". Aby rozwiązać ten problem, upewnij się, że obiekty docelowe mają wyłączony kod bitowy.
  • Minimalna wartość docelowa wdrożenia systemu iOS została uaktualniona do wersji 11.0 w tej wersji, co oznacza, że armv7 HW nie jest już obsługiwana.

Nowe funkcje

  • Funkcja rozpoznawania mowy osadzonej (na urządzeniu) obsługuje teraz zarówno dźwięk wejściowy o częstotliwości próbkowania 8, jak i 16 kHz (16-bitowy na próbkę, mono PCM).
  • Funkcja Speech Synthesis zgłasza teraz opóźnienia połączeń, sieci i usług w wyniku, aby ułatwić kompleksową optymalizację opóźnień.
  • Nowe reguły podziału dla rozpoznawania intencji z prostym dopasowaniem wzorca. Im więcej bajtów znaków, które są dopasowane, wygra dopasowania wzorca z mniejszą liczbą bajtów znaków. Przykład: Wzorzec "Select {something} in the top right" (Wybierz element {something} w prawym górnym rogu) spowoduje wygraną ciągu "Select {something}" (Wybierz {coś})

Poprawki błędów

  • Synteza mowy: napraw usterkę polegającą na tym, że emoji nie jest poprawne w zdarzeniach granic słowa.
  • Rozpoznawanie intencji za pomocą usługi Conversational Language Understanding (CLU):
    • Intencje z przepływu pracy programu CLU Orchestrator są teraz wyświetlane poprawnie.
    • Wynik JSON jest teraz dostępny za pośrednictwem identyfikatora LanguageUnderstandingServiceResponse_JsonResultwłaściwości .
  • Rozpoznawanie mowy z aktywacją słowa kluczowego: poprawka dotycząca braku dźwięku ~150 ms po rozpoznaniu słowa kluczowego.
  • Poprawka dotycząca kompilacji wydania nuGet zestawu SPEECH SDK dla systemu iOS MAUI zgłoszonej przez klienta (problem z usługą GitHub)

Przykłady

  • Poprawka przykładowa aplikacji Swift dla systemu iOS zgłoszona przez klienta (problem z usługą GitHub)

Zestaw Speech SDK 1.25.0: wydanie ze stycznia 2023 r.

Zmiany powodujące niezgodność

  • Interfejsy API identyfikacji języka (wersja zapoznawcza) zostały uproszczone. Jeśli zaktualizujesz zestaw Speech SDK 1.25 i zobaczysz podział kompilacji, odwiedź stronę Identyfikacji języka, aby dowiedzieć się więcej o nowej właściwości SpeechServiceConnection_LanguageIdMode. Ta pojedyncza właściwość zastępuje dwie poprzednie SpeechServiceConnection_SingleLanguageIdPriority SpeechServiceConnection_ContinuousLanguageIdPriorityi . Ustalanie priorytetów między małym opóźnieniem a wysoką dokładnością nie jest już konieczne po najnowszych ulepszeniach modelu. Teraz wystarczy wybrać, czy uruchamiać funkcję przy uruchamianiu, czy ciągłej identyfikacji języka podczas ciągłego rozpoznawania mowy lub tłumaczenia.

Nowe funkcje

  • C#/C++/Java: Osadzony zestaw SPEECH SDK jest teraz udostępniany w publicznej wersji zapoznawczej. Zobacz dokumentację usługi Embedded Speech (wersja zapoznawcza). Teraz możesz wykonywać zamianę mowy na urządzenie na tekst i tekst na mowę, gdy łączność w chmurze jest sporadycznie lub niedostępna. Obsługiwane na platformach Android, Linux, macOS i Windows
  • C# MAUI: dodano obsługę elementów docelowych dla systemów iOS i Mac Catalyst w zestawie Sdk usługi Mowa NuGet (problem klienta)
  • Unity: architektura x86_64 systemu Android dodana do pakietu Aparatu Unity (problem z klientem)
  • Przejdź:
    • Dodano obsługę bezpośredniego przesyłania strumieniowego usługi ALAW/MULAW na potrzeby rozpoznawania mowy (problem z klientem)
    • Dodano obsługę elementu PhraseListGrammar. Dziękujemy użytkownikowi usługi GitHub czkoko za wkład społeczności!
  • C#/C++: Rozpoznawanie intencji obsługuje teraz modele usługi Conversational Language Understanding w języku C++ i C# z orkiestracją w usłudze firmy Microsoft

Poprawki błędów

  • Naprawianie okazjonalnego zawieszenia w obiekcie KeywordRecognizer podczas próby jego zatrzymania
  • Python:
    • Poprawka dotycząca pobierania wyników oceny wymowy po PronunciationAssessmentGranularity.FullText ustawieniu (problem z klientem)
    • Poprawka dotycząca właściwości płci dla głosów męskich, które nie są pobierane, podczas uzyskiwania głosów syntezy mowy
  • JavaScript
    • Poprawka dotycząca analizowania niektórych plików WAV zarejestrowanych na urządzeniach z systemem iOS (problem klienta)
    • Zestaw JS SDK teraz kompiluje się bez używania rozwiązania npm-force-resolutions (problem z klientem)
    • Usługa Conversation Translator teraz poprawnie ustawia punkt końcowy usługi podczas korzystania z wystąpienia usługi speechConfig utworzonego przy użyciu funkcji SpeechConfig.fromEndpoint()

Przykłady

  • Dodano przykłady pokazujące, jak używać osadzonej mowy

  • Dodano mowę do przykładu tekstu dla interfejsu MAUI

    Zobacz repozytorium przykładów zestawu SPEECH SDK.

Zestaw Speech SDK 1.24.2: wydanie z listopada 2022 r.

Nowe funkcje

  • Brak nowych funkcji— tylko osadzona poprawka aparatu do obsługi nowych plików modelu.

Poprawki błędów

  • Wszystkie języki programujące
    • Rozwiązano problem z szyfrowaniem osadzonych modeli rozpoznawania mowy.

Zestaw Speech SDK 1.24.1: wydanie z listopada 2022 r.

Nowe funkcje

Poprawki błędów

  • Wszystkie języki programujące
    • Naprawa osadzonej awarii TTS, gdy czcionka głosowa nie jest obsługiwana
    • Poprawka stopSpeaking() nie może zatrzymać odtwarzania w systemie Linux (#1686)
  • Zestaw SDK dla języka JavaScript
    • Naprawiono regresję w sposobie transkrypcji konwersacji z bramą dźwięku.
  • Java
    • Tymczasowo opublikowane zaktualizowane pliki POM i Javadocs w usłudze Maven Central w celu umożliwienia potoku dokumentacji aktualizacji dokumentacji online.
  • Python
    • Naprawiono regresję, w której język Python speak_text(ssml) zwraca wartość void.

Zestaw Speech SDK 1.24.0: wersja z października 2022 r.

Nowe funkcje

  • Wszystkie języki programowe: AMR-WB (16khz) dodane do obsługiwanej listy formatów danych wyjściowych zamiany tekstu na mowę
  • Python: dodano pakiet dla systemu Linux Arm64 dla obsługiwanych dystrybucji systemu Linux.
  • C#/C++/Java/Python: Dodano obsługę bezpośredniego przesyłania strumieniowego ALAW i MULAW do usługi rozpoznawania mowy (oprócz istniejącego strumienia PCM) przy użyciu polecenia AudioStreamWaveFormat.
  • C# MAUI: pakiet NuGet zaktualizowany w celu obsługi obiektów docelowych systemu Android dla deweloperów MAUI platformy .NET (problem klienta)
  • Mac: dodano oddzielną pracę XCframework dla komputerów Mac, która nie zawiera żadnych plików binarnych systemu iOS. Oferuje to opcję dla deweloperów, którzy potrzebują tylko plików binarnych Mac przy użyciu mniejszego pakietu XCframework.
  • Microsoft Audio Stack (MAS):
    • W przypadku określenia kątów tworzących belki dźwięk pochodzący poza określonym zakresem będzie lepiej pomijany.
    • Około 70% zmniejszenie rozmiaru libMicrosoft.CognitiveServices.Speech.extension.mas.so dla systemów Linux ARM32 i Linux Arm64.
  • Rozpoznawanie intencji przy użyciu dopasowania wzorca:
    • Dodawanie obsługi ortografii dla języków fr, , de, esjp
    • Dodano wstępnie utworzoną obsługę liczb całkowitych dla języka es.

Poprawki błędów

  • iOS: usuwanie błędu syntezy mowy w systemie iOS 16 spowodowanego błędem dekodowania skompresowanego dźwięku (problem klienta).
  • JavaScript:
    • Napraw token uwierzytelniania, który nie działa podczas pobierania listy głosów syntezy mowy (problem z klientem).
    • Użyj adresu URL danych do ładowania procesów roboczych (problem z klientem).
    • Utwórz worklet procesora audio tylko wtedy, gdy audioWorklet jest obsługiwany w przeglądarce (problem klienta). Był to wkład społeczności WilliamA Wonga. Dziękujemy Williamowi!
    • Rozwiązano problem z rozpoznaną wywołaniem zwrotnym, gdy odpowiedź usługi connectionMessage LUIS jest pusta (problem z klientem).
    • Odpowiednio ustaw limit czasu segmentacji mowy.
  • Rozpoznawanie intencji przy użyciu dopasowania wzorca:
    • Znaki inne niż json wewnątrz modeli są teraz prawidłowo ładowane.
    • Rozwiązano problem z zawieszającymi się wywołaniami recognizeOnceAsync(text) podczas ciągłego rozpoznawania.

Zestaw Speech SDK 1.23.0: wersja z lipca 2022 r.

Nowe funkcje

  • C#, C++, Java: dodano obsługę języków zh-cn i zh-hk rozpoznawania intencji z dopasowywania wzorców.
  • C#: Dodano obsługę AnyCPU kompilacji programu .NET Framework

Poprawki błędów

  • Android: usunięto lukę w zabezpieczeniach protokołu OpenSSL CVE-2022-2068 przez zaktualizowanie biblioteki OpenSSL do wersji 1.1.1q
  • Python: naprawianie awarii podczas korzystania z elementu PushAudioInputStream
  • iOS: Poprawka "EXC_BAD_ACCESS: Podjęto próbę wyłudzenia wskaźnika o wartości null" zgodnie z raportem w systemie iOS (problem z usługą GitHub)

Zestaw Speech SDK 1.22.0: wersja z czerwca 2022 r.

Nowe funkcje

  • Java: IntentRecognitionResult API for getEntities(), applyLanguageModels() i recognizeOnceAsync(text) dodany do obsługi aparatu "prostego dopasowywania wzorców".
  • Unity: dodano obsługę komputera Mac M1 (Apple Silicon) dla pakietu Aparatu Unity (problem z usługą GitHub)
  • C#: Dodano obsługę x86_64 dla platformy Xamarin Android (problem z usługą GitHub)
  • C#: Minimalna wersja programu .NET Framework zaktualizowana do wersji 4.6.2 dla pakietu C# zestawu SDK jako wersja 4.6.1 została wycofana (zobacz Zasady cyklu życia składnika programu Microsoft .NET Framework)
  • Linux: dodano obsługę systemów Debian 11 i Ubuntu 22.04 LTS. System Ubuntu 22.04 LTS wymaga ręcznej instalacji biblioteki libssl1.1 albo jako pakietu binarnego z tego miejsca (na przykład libssl1.1_1.1.1l-1ubuntu1.3_amd64.deb lub nowszego dla x64) lub przez skompilowanie ze źródeł.

Poprawki błędów

  • UwP: zależność OpenSSL została usunięta z bibliotek platformy UWP i zastąpiona protokołem WebSocket WinRT i interfejsami API PROTOKOŁU HTTP w celu spełnienia zgodności z zabezpieczeniami i mniejszego śladu binarnego.
  • Mac: rozwiązano problem "MicrosoftCognitiveServicesSpeech Module Not Found" podczas korzystania z projektów Swift przeznaczonych dla platformy macOS
  • Windows, Mac: rozwiązano problem specyficzny dla platformy polegający na tym, że źródła audio, które zostały skonfigurowane za pośrednictwem właściwości do strumieniowego przesyłania strumieniowego w czasie rzeczywistym, czasami spadły i ostatecznie przekroczyły pojemność

Przykłady (GitHub)

  • C#: Zaktualizowano przykłady platformy .NET Framework w celu korzystania z wersji 4.6.2
  • Unity: przykład asystenta wirtualnego naprawiono dla systemów Android i UWP
  • Unity: przykłady aparatu Unity zaktualizowane dla wersji LTS aparatu Unity 2020

Zestaw Speech SDK 1.21.0: wersja z kwietnia 2022 r.

Nowe funkcje

  • Java i JavaScript: dodano obsługę ciągłej identyfikacji języka podczas korzystania z obiektu SpeechRecognizer
  • JavaScript: dodano interfejsy API diagnostyczne w celu włączenia rejestrowania na poziomie rejestrowania konsoli i rejestrowania plików (tylko węzeł) w celu ułatwienia firmie Microsoft rozwiązywania problemów zgłaszanych przez klientów
  • Python: Dodano obsługę transkrypcji konwersacji
  • Go: Dodano obsługę rozpoznawania osoby mówiącej
  • C++ i C#: Dodano obsługę wymaganej grupy wyrazów w rozpoznawaniu intencji (proste dopasowywanie wzorca). Na przykład: "(set|start|begin) czasomierz", w którym "set", "start" lub "begin" musi być obecny, aby intencja została rozpoznana.
  • Wszystkie języki programowania, Synteza mowy: dodano właściwość czasu trwania w zdarzeniach granic wyrazów. Dodano obsługę granicy interpunkcyjnej i granicy zdań
  • Objective-C/Swift/Java: dodano wyniki na poziomie wyrazu w obiekcie wyniku oceny wymowy (podobnie jak w języku C#). Aplikacja nie musi już analizować ciągu wyników JSON, aby uzyskać informacje na poziomie wyrazu (problem z usługą GitHub)
  • Platforma systemu iOS: dodano eksperymentalną obsługę architektury ARMv7

Poprawki błędów

  • Platforma systemu iOS: poprawka umożliwiająca kompilowanie elementu docelowego "Dowolne urządzenie z systemem iOS" podczas korzystania z narzędzia CocoaPod (problem z usługą GitHub)
  • Platforma systemu Android: wersja openSSL została zaktualizowana do wersji 1.1.1n w celu naprawienia luki w zabezpieczeniach CVE-2022-0778
  • JavaScript: rozwiązano problem polegający na tym, że nagłówek wav nie był aktualizowany przy użyciu rozmiaru pliku (problem z usługą GitHub)
  • JavaScript: rozwiązywanie problemów z anulowaniem synchronizacji identyfikatora żądania — problemy z tłumaczeniem powodujących niezgodność (problem z usługą GitHub)
  • JavaScript: rozwiązano problem podczas tworzenia wystąpienia wystąpienia elementu SpeakerAudioDestination bez strumienia (problem z usługą GitHub)
  • C++: Napraw nagłówki języka C++, aby usunąć ostrzeżenie podczas kompilowania dla języka C++17 lub nowszego

Przykłady w usłudze GitHub

  • Nowe przykłady języka Java do rozpoznawania mowy z identyfikacją języka
  • Nowe przykłady języków Python i Java na potrzeby transkrypcji konwersacji
  • Nowy przykład języka Go na potrzeby rozpoznawania osoby mówiącej
  • Nowe narzędzie języka C++ i języka C# dla systemu Windows, które wylicza wszystkie urządzenia do przechwytywania i renderowania dźwięku w celu znalezienia identyfikatora urządzenia. Ten identyfikator jest wymagany przez zestaw SDK usługi Mowa, jeśli planujesz przechwytywać dźwięk z lub renderować dźwięk do urządzenia bez definicji.

Zestaw Speech SDK 1.20.0: wydanie ze stycznia 2022 r.

Nowe funkcje

  • Objective-C, Swift i Python: dodano obsługę poleceń DialogServiceConnector używanych w scenariuszach asystenta głosowego.
  • Python: dodano obsługę języka Python 3.10. Obsługa języka Python 3.6 została usunięta na koniec życia języka Python przez 3,6.
  • Unity: zestaw SPEECH SDK jest teraz obsługiwany dla aplikacji aparatu Unity w systemie Linux.
  • C++, C#: IntentRecognizer przy użyciu dopasowywania wzorca jest teraz obsługiwany w języku C#. Ponadto scenariusze z jednostkami niestandardowymi, opcjonalnymi grupami i rolami jednostek są teraz obsługiwane w językach C++ i C#.
  • C++, C#: Ulepszone rejestrowanie śledzenia diagnostyki przy użyciu nowych klas FileLogger, MemoryLogger i EventLogger. Dzienniki zestawu SDK są ważnym narzędziem firmy Microsoft do diagnozowania problemów zgłaszanych przez klientów. Te nowe klasy ułatwiają klientom integrowanie dzienników zestawu Speech SDK z własnym systemem rejestrowania.
  • Wszystkie języki programowania: WymowaAssessmentConfig ma teraz właściwości ustawiania żądanego alfabetu phoneme (IPA lub SAPI) i N-Best Phoneme Count (unikanie konieczności tworzenia konfiguracji JSON zgodnie z problemem 1284 w usłudze GitHub). Ponadto dane wyjściowe na poziomie sylalnej są teraz obsługiwane.
  • Systemy Android, iOS i macOS (wszystkie języki programowania): usługa GStreamer nie jest już potrzebna do obsługi sieci o ograniczonej przepustowości. Funkcja SpeechSynthesizer używa teraz funkcji dekodowania audio systemu operacyjnego do dekodowania skompresowanego dźwięku przesyłanego strumieniowo z tekstu do usługi mowy.
  • Wszystkie języki programowania: Funkcja SpeechSynthesizer obsługuje teraz trzy nowe nieprzetworzone formaty Wyjściowe Firmy (bez kontenera), które są powszechnie używane w scenariuszach transmisji strumieniowej na żywo.
  • JavaScript: dodano interfejs API getVoicesAsync() do usługi SpeechSynthesizer w celu pobrania listy obsługiwanych głosów syntezy (problem 1350 w usłudze GitHub)
  • JavaScript: dodano interfejs API getWaveFormat() do formatu AudioStreamFormat w celu obsługi formatów fal innych niż PCM (problem 452 w usłudze GitHub)
  • JavaScript: dodano interfejsy API getter/setter i mute()/unmute() do funkcji SpeakerAudioDestination (problem 463 w usłudze GitHub)

Poprawki błędów

  • C++, C#, Java, JavaScript, Objective-C i Swift: poprawka umożliwiająca usunięcie 10-sekundowego opóźnienia podczas zatrzymywania rozpoznawania mowy korzystającego z elementu PushAudioInputStream. Dotyczy to sytuacji, w której po wywołaniu polecenia StopContinuousRecognition (problemy z usługą GitHub 1318, 3311)
  • Aparat Unity w systemach Android i UWP: metapliki aparatu Unity zostały naprawione dla platformy UWP, Android Arm64 i Podsystem Windows dla systemu Android (WSA) Arm64 (problem z usługą GitHub 1360)
  • iOS: kompilowanie aplikacji zestawu SPEECH SDK na dowolnym urządzeniu z systemem iOS podczas korzystania z narzędzia CocoaPods jest teraz rozwiązane (problem z usługą GitHub 1320)
  • iOS: gdy funkcja SpeechSynthesizer jest skonfigurowana do wyprowadzania dźwięku bezpośrednio do głośnika, odtwarzanie zostało zatrzymane na początku w rzadkich warunkach. To zostało naprawione.
  • JavaScript: użyj rezerwowego procesora skryptu dla danych wejściowych mikrofonu, jeśli nie znaleziono żadnego workletu audio (problem 455 w usłudze GitHub)
  • JavaScript: dodawanie protokołu do agenta w celu wyeliminowania usterki wykrytej za pomocą integracji usługi Sentry (problem 465 w usłudze GitHub)

Przykłady w usłudze GitHub

  • Przykłady języków C++, C#, Python i Java pokazujące sposób uzyskiwania szczegółowych wyników rozpoznawania. Szczegóły obejmują wyniki rozpoznawania alternatywnego, współczynnik ufności, formularz leksykalny, formularz znormalizowany, formularz maskowany z chronometrażem na poziomie wyrazu dla każdego z nich.
  • Przykład systemu iOS dodany przy użyciu narzędzia AVFoundation jako zewnętrznego źródła audio.
  • Dodano przykład języka Java, aby pokazać, jak uzyskać format SRT (SubRip Text) przy użyciu zdarzenia WordBoundary.
  • Przykłady dla systemu Android na potrzeby oceny wymowy.
  • C++, C# pokazujący użycie nowych klas rejestrowania diagnostycznego.

Zestaw Speech SDK 1.19.0: wydanie z listopada 2021 r.

Najważniejsze informacje

  • Usługa rozpoznawania osoby mówiącej jest teraz ogólnie dostępna. Interfejsy API zestawu SPEECH SDK są dostępne w językach C++, C#, Java i JavaScript. Dzięki funkcji rozpoznawania osoby mówiącej można dokładnie zweryfikować i zidentyfikować osoby mówiące o ich unikatowych cechach głosu. Aby uzyskać więcej informacji na temat tego tematu, zobacz dokumentację.

  • Zrezygnowaliśmy z obsługi systemu Ubuntu 16.04 w połączeniu z usługami Azure DevOps i GitHub. Ubuntu 16.04 osiągnął koniec życia już w kwietniu 2021 roku. Przeprowadź migrację przepływów pracy systemu Ubuntu 16.04 do systemu Ubuntu 18.04 lub nowszego.

  • Łączenie biblioteki OpenSSL w plikach binarnych systemu Linux zmieniło się na dynamiczne. Rozmiar pliku binarnego systemu Linux został zmniejszony o około 50%.

  • Dodano obsługę krzemu opartego na architekturze ARM na komputerze Mac M1.

Nowe funkcje

  • C++/C#/Java: dodano nowe interfejsy API w celu włączenia obsługi przetwarzania audio dla danych wejściowych mowy za pomocą usługi Microsoft Audio Stack. Tutaj znajdziesz dokumentację.

  • C++: Nowe interfejsy API do rozpoznawania intencji ułatwiające bardziej zaawansowane dopasowywanie wzorców. Obejmuje to jednostki List i Prebuilt Integer, a także obsługę grupowania intencji i jednostek jako modeli (dokumentacja, aktualizacje i przykłady są opracowywane i będą publikowane w najbliższej przyszłości).

  • Mac: obsługa krzemu opartego na architekturze Arm64 (M1) dla pakietów CocoaPod, Python, Java i NuGet związanych z problemem GitHub 1244.

  • iOS/Mac: pliki binarne systemu iOS i macOS są teraz pakowane w pliki xcframework związane z problemem GitHub 919.

  • iOS/Mac: obsługa katalizatora dla komputerów Mac związanych z problemem GitHub 1171.

  • Linux: dodano nowy pakiet tar dla centOS7 About the Speech SDK (Informacje o zestawie SDK usługi Mowa). Pakiet .tar systemu Linux zawiera teraz określone biblioteki dla systemu RHEL/CentOS 7 w systemie lib/centos7-x64. Biblioteki zestawu SPEECH SDK w bibliotece lib/x64 są nadal stosowane dla wszystkich innych obsługiwanych dystrybucji systemu Linux x64 (w tym RHEL/CentOS 8) i nie będą działać w systemie RHEL/CentOS 7.

  • JavaScript: interfejsy API VoiceProfile i SpeakerRecognizer wykonane async/awaitable.

  • JavaScript: dodano obsługę regionów platformy Azure dla instytucji rządowych USA.

  • Windows: dodano obsługę odtwarzania w systemie platforma uniwersalna systemu Windows (UWP).

Poprawki błędów

  • Android: aktualizacja zabezpieczeń openSSL (zaktualizowana do wersji 1.1.1l) dla pakietów systemu Android.

  • Python: Usunięto usterkę polegającą na tym, że wybieranie urządzenia mówiącego w języku Python kończy się niepowodzeniem.

  • Podstawowe: automatycznie połącz się ponownie, gdy próba połączenia zakończy się niepowodzeniem.

  • iOS: kompresja audio wyłączona w pakietach systemu iOS ze względu na niestabilność i problemy z kompilacją kodu bitowego podczas korzystania z usługi GStreamer. Szczegóły są dostępne za pośrednictwem usługi GitHub problemu 1209.

Przykłady w usłudze GitHub

  • Mac/iOS: zaktualizowano przykłady i przewodniki Szybki start dotyczące korzystania z pakietu xcframework.

  • .NET: przykłady zaktualizowane do korzystania z wersji .NET Core 3.1.

  • JavaScript: dodano przykład dla asystentów głosowych.

Zestaw Speech SDK 1.18.0: wersja z 2021 r.

Uwaga: rozpocznij pracę z zestawem SPEECH SDK tutaj.

Podsumowanie wyróżniania

  • Ubuntu 16.04 osiągnął koniec życia w kwietniu 2021 roku. W przypadku usług Azure DevOps i GitHub spadniemy obsługę wersji 16.04 we wrześniu 2021 r. Przeprowadź migrację przepływów pracy ubuntu-16.04 do systemu ubuntu-18.04 lub nowszego wcześniej.

Nowe funkcje

  • C++: Prosty wzorzec języka zgodny z rozpoznawaniem intencji ułatwia teraz implementowanie prostych scenariuszy rozpoznawania intencji.
  • C++/C#/Java: Dodaliśmy nowy interfejs API GetActivationPhrasesAsync() do VoiceProfileClient klasy w celu otrzymania listy prawidłowych fraz aktywacji w fazie rejestracji rozpoznawania osoby mówiącej dla niezależnych scenariuszy rozpoznawania.
    • Ważne: funkcja rozpoznawania osoby mówiącej jest dostępna w wersji zapoznawczej. Wszystkie profile głosowe utworzone w wersji zapoznawczej zostaną wycofane z 90 dni po przeniesieniu funkcji rozpoznawania osoby mówiącej z wersji zapoznawczej do ogólnej dostępności. W tym momencie profile głosowe w wersji zapoznawczej przestaną działać.
  • Python: dodano obsługę ciągłej identyfikacji języka (LID) w istniejących obiektach SpeechRecognizer i TranslationRecognizer .
  • Python: dodano nowy obiekt języka Python o nazwie SourceLanguageRecognizer , aby wykonać jednorazową lub ciągłą pokrywę (bez rozpoznawania lub tłumaczenia).
  • JavaScript: getActivationPhrasesAsync interfejs API dodany do VoiceProfileClient klasy w celu otrzymania listy prawidłowych fraz aktywacji w fazie rejestracji rozpoznawania osoby mówiącej dla niezależnych scenariuszy rozpoznawania.
  • Interfejs API języka JavaScript VoiceProfileClientenrollProfileAsync jest teraz asynchroniczny. Zobacz ten niezależny kod identyfikacyjny, na przykład użycie.

Ulepszenia

Poprawki błędów

  • Java: Naprawiono błąd syntezy, gdy tekst syntezy zawiera znaki zastępcze. Szczegóły znajdują się tutaj.
  • JavaScript: przetwarzanie dźwięku mikrofonu przeglądarki używa AudioWorkletNode teraz zamiast przestarzałego ScriptProcessorNode. Szczegóły znajdują się tutaj.
  • JavaScript: poprawne utrzymywanie konwersacji podczas długotrwałych scenariuszy tłumaczenia konwersacji. Szczegóły znajdują się tutaj.
  • JavaScript: rozwiązano problem polegający na ponownym połączeniu rozpoznawania z strumieniem multimediów w ciągłym rozpoznawaniu. Szczegóły znajdują się tutaj.
  • JavaScript: rozwiązano problem z ponownym nawiązywaniem połączenia z elementem pushStream w ciągłym rozpoznawaniu. Szczegóły znajdują się tutaj.
  • JavaScript: poprawiono obliczanie przesunięcia na poziomie wyrazu w wynikach szczegółowego rozpoznawania. Szczegóły znajdują się tutaj.

Przykłady

  • Przykłady z przewodnika Szybki start dla języka Java zostały zaktualizowane tutaj.
  • Zaktualizowano przykłady rozpoznawania osoby mówiącej w języku JavaScript, aby pokazać nowe użycie elementu enrollProfileAsync(). Zobacz przykłady tutaj.

Zestaw Speech SDK 1.17.0: wersja z maja 2021 r.

Uwaga

Rozpocznij pracę z zestawem SPEECH SDK tutaj.

Podsumowanie wyróżniania

  • Mniejszy ślad — nadal zmniejszamy ilość pamięci i dysku zestawu SPEECH SDK oraz jego składników.
  • Nowy autonomiczny interfejs API identyfikacji języka umożliwia rozpoznawanie języka mówionego.
  • Twórz aplikacje rzeczywistości mieszanej i gier z obsługą mowy przy użyciu aparatu Unity w systemie macOS.
  • Teraz możesz używać funkcji Zamiana tekstu na mowę oprócz rozpoznawania mowy z języka programowania Go.
  • Kilka poprawek usterek w celu rozwiązania problemów, które zostały oflagowane przez naszych cenionych klientów w usłudze GitHub! DZIĘKUJĘ! Śledź opinie!

Nowe funkcje

  • C++/C#: Nowe autonomiczne wykrywanie języka przy uruchamianiu i ciągłym za pośrednictwem interfejsu SourceLanguageRecognizer API. Jeśli chcesz tylko wykryć języki mówione w zawartości audio, jest to interfejs API, aby to zrobić. Szczegółowe informacje można znaleźć w językach C++ i C#.
  • C++/C#: Rozpoznawanie mowy i rozpoznawanie tłumaczenia obsługują teraz zarówno na początku, jak i ciągłą identyfikację języka, dzięki czemu można programowo określić, które języki są używane przed ich transkrypcją lub przetłumaczoną. Zapoznaj się z dokumentacją dotyczącą rozpoznawania mowy i tutaj, aby zapoznać się z tłumaczeniem mowy.
  • C#: Dodano obsługę aparatu Unity dla systemu macOS (x64). Spowoduje to odblokowanie rozpoznawania mowy i przypadków użycia syntezy mowy w rzeczywistości mieszanej i grach!
  • Go: Dodaliśmy obsługę tekstu syntezy mowy na mowę w języku programowania Go w celu udostępnienia syntezy mowy w jeszcze większej analizie użycia. Zobacz nasz przewodnik Szybki start lub dokumentację referencyjną.
  • C++/C#/Java/Python/Objective-C/Go: syntetyzator mowy obsługuje connection teraz obiekt. Ułatwia to zarządzanie i monitorowanie połączenia z usługą Rozpoznawanie mowy, co jest szczególnie przydatne w przypadku wstępnego nawiązywania połączenia w celu zmniejszenia opóźnienia. Zapoznaj się z dokumentacją tutaj.
  • C++/C#/Java/Python/Objective-C/Go: Teraz uwidaczniamy opóźnienie i czas wykonywania, SpeechSynthesisResult aby ułatwić monitorowanie i diagnozowanie problemów z opóźnieniem syntezy mowy. Zobacz szczegóły języków C++, C#, Java, Python, Objective-C i Go.
  • C++/C#/Java/Python/Objective-C: Zamiana tekstu na mowę domyślnie używa głosów neuronowych, gdy nie określisz głosu do użycia. Zapewnia to domyślnie większą wierność danych wyjściowych, ale także zwiększa domyślną cenę. Możesz określić dowolny z ponad 70 standardowych głosów lub ponad 130 neuronowych głosów, aby zmienić wartość domyślną.
  • C++/C#/Java/Python/Objective-C/Go: Dodaliśmy właściwość Gender do informacji o głosie syntezy, aby ułatwić wybieranie głosów na podstawie płci. Dotyczy to problemu z usługą GitHub #1055.
  • C++, C#, Java, JavaScript: obsługujemy teraz rozpoznawanie retrieveEnrollmentResultAsync, getAuthorizationPhrasesAsynci getAllProfilesAsync() w funkcji rozpoznawania osoby mówiącej, aby ułatwić zarządzanie użytkownikami wszystkich profilów głosowych dla danego konta. Zobacz dokumentację języka C++, C#, Java, JavaScript. To rozwiązanie problemu z usługą GitHub nr 338.
  • JavaScript: dodaliśmy ponawianie prób dla niepowodzeń połączenia, które sprawią, że aplikacje mowy oparte na języku JavaScript będą bardziej niezawodne.

Ulepszenia

  • Pliki binarne zestawu SDK rozpoznawania mowy dla systemu Linux i Android zostały zaktualizowane w celu korzystania z najnowszej wersji biblioteki OpenSSL (1.1.1k)
  • Ulepszenia rozmiaru kodu:
    • Usługa Language Understanding jest teraz podzielona na oddzielną bibliotekę "lu".
    • Rozmiar binarny systemu Windows x64 core zmniejszył się o 14,4%.
    • Rozmiar binarny rdzenia arm64 systemu Android zmniejszył się o 13,7%.
    • inne składniki również zmniejszyły się w rozmiarze.

Poprawki błędów

  • Wszystko: Rozwiązano problem z usługą GitHub #842 dla elementu ServiceTimeout. Teraz można transkrybować długie pliki audio przy użyciu zestawu SPEECH SDK bez połączenia z usługą kończącą się tym błędem. Jednak nadal zalecamy używanie transkrypcji wsadowej dla długich plików.
  • C#: Rozwiązano problem z usługą GitHub #947 polegający na tym, że żadne dane wejściowe mowy nie mogły pozostawić aplikacji w złym stanie.
  • Java: Rozwiązano problem z usługą GitHub #997 polegający na tym, że zestaw SPEECH SDK dla języka Java 1.16 ulegał awarii podczas korzystania z narzędzia DialogServiceConnector bez połączenia sieciowego lub nieprawidłowego klucza subskrypcji.
  • Naprawiono awarię, gdy nagle zatrzymano rozpoznawanie mowy (na przykład przy użyciu CTRL+C w aplikacji konsolowej).
  • Java: dodano poprawkę do usuwania plików tymczasowych w systemie Windows podczas korzystania z zestawu Speech SDK dla języka Java.
  • Java: Rozwiązano problem z usługą GitHub nr 994 polegający na tym, że wywołanie DialogServiceConnector.stopListeningAsync mogło spowodować błąd.
  • Java: rozwiązano problem klienta w przewodniku Szybki start asystenta wirtualnego.
  • JavaScript: Rozwiązano problem z usługą GitHub #366 , w którym ConversationTranslator wystąpił błąd "this.cancelSpeech nie jest funkcją".
  • JavaScript: Rozwiązano problem z usługą GitHub nr 298 , w którym przykład "Pobierz wynik jako strumień w pamięci" odtwarzał dźwięk głośno.
  • JavaScript: Rozwiązano problem z usługą GitHub #350 , który polegał na tym, że wywołanie AudioConfig mogło spowodować, że element "ReferenceError: MediaStream" nie został zdefiniowany.
  • JavaScript: naprawiono ostrzeżenie UnhandledPromiseRejection w Node.js dla długotrwałych sesji.

Przykłady

  • Zaktualizowano dokumentację przykładów aparatu Unity dla systemu macOS tutaj.
  • Przykład react native dla usługi rozpoznawania mowy azure AI jest teraz dostępny tutaj.

Zestaw Speech SDK 1.16.0: wersja z marca 2021 r.

Uwaga

Zestaw SPEECH SDK dla systemu Windows zależy od udostępnionego zestawu Microsoft Pakiet redystrybucyjny Visual C++ dla Visual Studio 2015, 2017 i 2019. Pobierz go tutaj.

Nowe funkcje

  • C++/C#/Java/Python: przeniesiono do najnowszej wersji usługi GStreamer (1.18.3), aby dodać obsługę transkrypcji dowolnego formatu multimediów w systemach Windows, Linux i Android. Zapoznaj się z dokumentacją tutaj.
  • C++/C#/Java/Objective-C/Python: Dodano obsługę dekodowania skompresowanego TTS/syntetyzowanego dźwięku do zestawu SDK. Jeśli ustawisz format audio wyjściowego na PCM i GStreamer jest dostępny w systemie, zestaw SDK automatycznie zażąda skompresowanego dźwięku z usługi, aby zaoszczędzić przepustowość i zdekodować dźwięk na kliencie. Możesz ustawić wartość SpeechServiceConnection_SynthEnableCompressedAudioTransmission , aby false wyłączyć tę funkcję. Szczegóły języka C++, C#, Java, Objective-C, Python.
  • JavaScript: Node.js użytkownicy mogą teraz używać interfejsu AudioConfig.fromWavFileInput API. To rozwiązanie problemu z usługą GitHub nr 252.
  • C++/C#/Java/Objective-C/Python: Dodano GetVoicesAsync() metodę TTS, aby zwrócić wszystkie dostępne głosy syntezy. Szczegóły języków C++, C#, Java, Objective-C i Python.
  • C++/C#/Java/JavaScript/Objective-C/Python: Dodano VisemeReceived zdarzenie syntezy TTS/mowy w celu zwrócenia synchronicznej animacji wizjera. Zapoznaj się z dokumentacją tutaj.
  • C++/C#/Java/JavaScript/Objective-C/Python: Dodano BookmarkReached zdarzenie dla usługi TTS. Zakładki można ustawić w wejściowym języku SSML i pobrać przesunięcia audio dla każdej zakładki. Zapoznaj się z dokumentacją tutaj.
  • Java: dodano obsługę interfejsów API rozpoznawania osoby mówiącej. Szczegóły znajdują się tutaj.
  • C++/C#/JavaScript/Objective-C/Python: dodano dwa nowe formaty audio wyjściowe z kontenerem WebM dla TTS (Webm16Khz16BitMonoOpus i Webm24Khz16BitMonoOpus). Są to lepsze formaty przesyłania strumieniowego audio za pomocą koderu Opus. Szczegóły języka C++, C#, Java, JavaScript, Objective-C, Python.
  • C++/C#/Java: Dodano obsługę pobierania profilu głosowego dla scenariusza rozpoznawania osoby mówiącej. Szczegóły dotyczące języków C++, C# i Java.
  • C++/C#/Java/Objective-C/Python: Dodano obsługę oddzielnej biblioteki udostępnionej dla mikrofonu audio i kontrolki głośnika. Dzięki temu deweloper może używać zestawu SDK w środowiskach, które nie mają wymaganych zależności bibliotek audio.
  • Objective-C/Swift: dodano obsługę platformy modułów z nagłówkiem parasola. Dzięki temu deweloper może zaimportować zestaw SPEECH SDK jako moduł w aplikacjach języka Objective-C/Swift dla systemu iOS/Mac. To rozwiązanie problemu z usługą GitHub nr 452.
  • Python: dodano obsługę języka Python 3.9 i usunięto obsługę języka Python 3.5 na koniec życia języka Python przez 3,5.

Znane problemy

  • C++/C#/Java: DialogServiceConnector nie można użyć elementu w CustomCommandsConfig celu uzyskania dostępu do aplikacji poleceń niestandardowych i zamiast tego wystąpi błąd połączenia. Można to obejść przez ręczne dodanie identyfikatora aplikacji do żądania za pomocą polecenia config.SetServiceProperty("X-CommandsAppId", "your-application-id", ServicePropertyChannel.UriQueryParameter). Oczekiwane zachowanie funkcji zostanie przywrócone CustomCommandsConfig w następnej wersji.

Ulepszenia

  • W ramach wysiłku obejmującego wiele wersji, aby zmniejszyć użycie pamięci i zużycie dysku przez zestaw SDK usługi Mowa, pliki binarne systemu Android są teraz o 3% do 5% mniejsze.
  • Poprawiono dokładność, czytelność i sekcje naszej dokumentacji referencyjnej języka C#tutaj.

Poprawki błędów

  • JavaScript: duże nagłówki plików WAV są teraz poprawnie analizowane (zwiększa fragment nagłówka do 512 bajtów). To rozwiązanie problemu z usługą GitHub nr 962.
  • JavaScript: Poprawiono problem z chronometrażem mikrofonu, jeśli strumień mikrofonu kończy się przed zatrzymaniem rozpoznawania, co rozwiązuje problem z brakiem funkcji rozpoznawania mowy w przeglądarce Firefox.
  • JavaScript: Teraz poprawnie obsługujemy obietnicę inicjowania, gdy przeglądarka wymusza wyłączenie mikrofonu przed zakończeniem włączania.
  • JavaScript: zamieniliśmy zależność adresu URL na adres URL-parse. To rozwiązanie problemu z usługą GitHub nr 264.
  • Android: naprawiono wywołania zwrotne, które nie działają, gdy minifyEnabled ustawiono wartość true.
  • C++/C#/Java/Objective-C/Python: TCP_NODELAY zostanie poprawnie ustawiona na bazowe we/wy gniazda dla usługi TTS, aby zmniejszyć opóźnienie.
  • C++/C#/Java/Python/Objective-C/Go: Naprawiono sporadyczne awarie, gdy rozpoznawanie zostało zniszczone tuż po uruchomieniu rozpoznawania.
  • C++/C#/Java: Naprawiono sporadyczne awarie w niszczeniu aparatu rozpoznawania osoby mówiącej.

Przykłady

  • JavaScript: przykłady przeglądarki nie wymagają już oddzielnego pobierania pliku biblioteki JavaScript.

Zestaw Speech SDK 1.15.0: wydanie ze stycznia 2021 r.

Uwaga

Zestaw SPEECH SDK dla systemu Windows zależy od udostępnionego zestawu Microsoft Pakiet redystrybucyjny Visual C++ dla Visual Studio 2015, 2017 i 2019. Pobierz go tutaj.

Podsumowanie wyróżniania

  • Mniejsza ilość pamięci i miejsca na dysku sprawia, że zestaw SDK jest bardziej wydajny.
  • Formaty danych wyjściowych o większej wierności są dostępne dla prywatnej wersji zapoznawczej niestandardowego neuronowego głosu.
  • Rozpoznawanie intencji może teraz uzyskać zwrot więcej niż górna intencja, co daje możliwość dokonania oddzielnej oceny intencji klienta.
  • Asystentzy głosowi i boty są teraz łatwiejsze do skonfigurowania i możesz sprawić, że natychmiast przestanie nasłuchiwać, i kontrolować sposób reagowania na błędy.
  • Ulepszona wydajność urządzenia dzięki opcjonalnemu kompresji.
  • Użyj zestawu SPEECH SDK w systemie Windows ARM/Arm64.
  • Ulepszone debugowanie niskiego poziomu.
  • Funkcja oceny wymowy jest teraz szerzej dostępna.
  • Kilka poprawek usterek w celu rozwiązania problemów, które zostały oflagowane przez naszych cenionych klientów w usłudze GitHub! DZIĘKUJĘ! Śledź opinie!

Ulepszenia

  • Zestaw SDK usługi Mowa jest teraz bardziej wydajny i lekki. Rozpoczęliśmy nakład pracy z wieloma wersjami, aby zmniejszyć użycie pamięci i zużycie dysku przez zestaw SDK usługi Mowa. Pierwszym krokiem było znaczne zmniejszenie rozmiaru plików w bibliotekach udostępnionych na większości platform. W porównaniu z wersją 1.14:
    • 64-bitowe biblioteki systemu Windows zgodne z platformą UWP są o około 30% mniejsze.
    • 32-bitowe biblioteki systemu Windows nie widzą jeszcze poprawy rozmiaru.
    • Biblioteki systemu Linux są o 20–25% mniejsze.
    • Biblioteki systemu Android są o 3–5% mniejsze.

Nowe funkcje

  • Wszystko: Nowe formaty wyjściowe 48 KHz dostępne dla prywatnej wersji zapoznawczej niestandardowego neuronowego głosu za pośrednictwem interfejsu API syntezy mowy TTS: Audio48Khz192KBitRateMonoMp3, audio-48khz-192kbitrate-mono-mp3, Audio48Khz96KBitRateMonoMp3, audio-48khz-96kbitrate-mono-mp3, Raw48Khz16BitMonoPcm, raw-48khz-16bit-mono-pcm, Riff48Khz16BitMonoPcm, riff-48khz-16bit-mono-pcm.
  • Wszystko: Niestandardowy głos jest również łatwiejszy w użyciu. Dodano obsługę ustawiania głosu niestandardowego za pośrednictwem języka EndpointId (C++, C#, Java, JavaScript, Objective-C, Python). Przed tą zmianą niestandardowi użytkownicy głosowi musieli ustawić adres URL punktu końcowego FromEndpoint za pomocą metody . Teraz klienci mogą używać FromSubscription metody tak samo jak wstępnie utworzone głosy, a następnie podać identyfikator wdrożenia, ustawiając wartość EndpointId. Upraszcza to konfigurowanie niestandardowych głosów.
  • C++/C#/Java/Objective-C/Python: Uzyskaj więcej niż górną intencjęIntentRecognizer. Obsługuje teraz konfigurowanie wyniku JSON zawierającego wszystkie intencje, a nie tylko intencję oceniania najwyższego poziomu za pośrednictwem metody przy LanguageUnderstandingModel FromEndpoint użyciu verbose=true parametru URI. To rozwiązanie problemu z usługą GitHub nr 880. Zobacz zaktualizowaną dokumentację tutaj.
  • C++/C#/Java: natychmiastowe zatrzymywanie nasłuchiwania asystenta głosowego lub bota. DialogServiceConnector(C++, C#, Java) ma teraz metodę towarzyszącą ListenOnceAsync()StopListeningAsync() . Spowoduje to natychmiastowe zatrzymanie przechwytywania dźwięku i bezproblemowe oczekiwanie na wynik, co czyni go idealnym do użycia ze scenariuszami "zatrzymaj teraz" naciśnięcia przycisku.
  • C++/C#/Java/JavaScript: Ustaw asystenta głosowego lub bota na lepsze reagowanie na podstawowe błędy systemu. DialogServiceConnector (C++, C#, Java, JavaScript) ma teraz nową TurnStatusReceived procedurę obsługi zdarzeń. Te zdarzenia opcjonalne odpowiadają każdej ITurnContext rozdzielczości bota i będą zgłaszać błędy wykonywania kolei, gdy wystąpią, na przykład w wyniku nieobsługiwanego wyjątku, przekroczenia limitu czasu lub spadku sieci między usługą Direct Line Speech i botem. TurnStatusReceived ułatwia reagowanie na warunki awarii. Jeśli na przykład bot trwa zbyt długo w zapytaniu bazy danych zaplecza (na przykład w poszukiwaniu produktu), TurnStatusReceived klient może wiedzieć, że wykona reprompt z komunikatem "przepraszam, nie udało mi się tego zrobić, możesz spróbować ponownie" lub coś podobnego.
  • C++/C#: Użyj zestawu SPEECH SDK na większej korzystaniu z platform. Pakiet NuGet zestawu SPEECH SDK obsługuje teraz pliki binarne natywne dla komputerów z systemem Windows ARM/Arm64 (platforma UWP była już obsługiwana), aby zestaw SPEECH SDK był bardziej przydatny w przypadku większej liczby typów maszyn.
  • Java: DialogServiceConnector teraz ma metodę setSpeechActivityTemplate() , która została przypadkowo wykluczona z języka wcześniej. Jest to równoważne ustawieniu Conversation_Speech_Activity_Template właściwości i będzie żądać, aby wszystkie przyszłe działania platformy Bot Framework pochodzące z usługi rozpoznawania mowy direct line scaliły podaną zawartość z ładunkami JSON.
  • Java: ulepszone debugowanie niskiego poziomu. Klasa Connection ma MessageReceived teraz zdarzenie podobne do innych języków programowania (C++, C#). To zdarzenie zapewnia niski poziom dostępu do danych przychodzących z usługi i może być przydatne do diagnostyki i debugowania.
  • JavaScript: łatwiejsza konfiguracja asystentów głosowych i botów za pomocą BotFrameworkConfigprogramu , który ma fromHost() teraz i fromEndpoint() metody fabryki, które upraszczają korzystanie z niestandardowych lokalizacji usług i ręczne ustawianie właściwości. Ustandaryzowaliśmy również opcjonalną specyfikację botId używania bota innego niż domyślny w fabrykach konfiguracji.
  • JavaScript: ulepszona wydajność urządzenia za pomocą dodanej właściwości kontrolki ciągu na potrzeby kompresji protokołu websocket. Ze względów wydajności domyślnie wyłączyliśmy kompresję protokołu Websocket. Można je ponownie przywrócić w scenariuszach o niskiej przepustowości. Więcej szczegółów można znaleźć tutaj. To rozwiązanie problemu z usługą GitHub nr 242.
  • JavaScript: dodano obsługę oceny lPronunciation, aby umożliwić ocenę wymowy mowy. Zobacz przewodnik Szybki start tutaj.

Poprawki błędów

  • Wszystkie (z wyjątkiem języka JavaScript): naprawiono regresję w wersji 1.14, w której zbyt dużo pamięci zostało przydzielone przez rozpoznawanie.
  • C++: Rozwiązano problem z odzyskiwaniem pamięci z usługą , który rozwiązał problem z usługą DialogServiceConnectorGitHub #794.
  • C#: Rozwiązano problem z zamknięciem wątku, który powodował zablokowanie obiektów przez około sekundę podczas usuwania.
  • C++/C#/Java: Naprawiono wyjątek uniemożliwiający aplikacji ustawienie tokenu autoryzacji mowy lub szablonu działania więcej niż raz na obiekcie DialogServiceConnector.
  • C++/C#/Java: Naprawiono awarię aparatu rozpoznawania z powodu stanu wyścigu w łzawie.
  • JavaScript: DialogServiceConnector wcześniej nie uwzględniał opcjonalnego botId parametru określonego w BotFrameworkConfigfabrykach. Umożliwiło to ręczne ustawienie parametru botId ciągu zapytania w celu użycia bota innego niż domyślny. Usterka została poprawiona, a botId wartości podane BotFrameworkConfigfabrykom będą honorowane i używane, w tym nowe fromHost() i fromEndpoint() dodane. Dotyczy to również parametru applicationId .CustomCommandsConfig
  • JavaScript: Rozwiązano problem z usługą GitHub #881, który zezwalał na ponowne użycie obiektu rozpoznawania.
  • JavaScript: rozwiązano problem polegający na tym, że skD wysyłał speech.config wiele razy w jednej sesji TTS, co marnowało przepustowość.
  • JavaScript: uproszczona obsługa błędów podczas autoryzacji mikrofonu, umożliwiając bardziej opisowy komunikat bąbelkowy, gdy użytkownik nie zezwolił na wprowadzanie mikrofonu w przeglądarce.
  • JavaScript: Rozwiązano problem z usługą GitHub nr 249 polegający na tym, że błędy typu w ConversationTranslator pliku i ConversationTranscriber powodowały błąd kompilacji dla użytkowników języka TypeScript.
  • Objective-C: Rozwiązano problem polegający na tym, że kompilacja usługi GStreamer nie powiodła się dla systemu iOS w środowisku Xcode 11.4, co rozwiązało problem z usługą GitHub nr 911.
  • Python: Rozwiązano problem z usługą GitHub #870, usuwając polecenie "DeprecationWarning: imp module jest przestarzały na rzecz importlib".

Przykłady

Zestaw Speech SDK 1.14.0: wydanie z października 2020 r.

Uwaga

Zestaw SPEECH SDK dla systemu Windows zależy od udostępnionego zestawu Microsoft Pakiet redystrybucyjny Visual C++ dla Visual Studio 2015, 2017 i 2019. Pobierz go tutaj.

Nowe funkcje

  • Linux: dodano obsługę systemów Debian 10 i Ubuntu 20.04 LTS.
  • Python/Objective-C: Dodano obsługę interfejsu KeywordRecognizer API. Dokumentacja będzie tutaj.
  • C++/Java/C#: Dodano obsługę ustawiania dowolnego HttpHeader klucza/wartości za pomocą polecenia ServicePropertyChannel::HttpHeader.
  • JavaScript: dodano obsługę interfejsu ConversationTranscriber API. Przeczytaj dokumentację tutaj.
  • C++/C#: Dodano nową AudioDataStream FromWavFileInput metodę (aby odczytać . Pliki WAV tutaj (C++) i tutaj (C#).
  • C++/C#/Java/Python/Objective-C/Swift: Dodano metodę zatrzymywania stopSpeakingAsync() syntezy mowy w tekście. Przeczytaj dokumentację referencyjną tutaj (C++), tutaj (C#), tutaj (Java), tutaj (Python), a tutaj (Objective-C/Swift).
  • C#, C++, Java: dodano FromDialogServiceConnector() funkcję do Connection klasy, która może służyć do monitorowania zdarzeń połączenia i rozłączania dla programu DialogServiceConnector. Przeczytaj dokumentację referencyjną tutaj (C#), tutaj (C++), a tutaj (Java).
  • C++/C#/Java/Python/Objective-C/Swift: Dodano obsługę oceny wymowy, która ocenia wymowę mowy i przekazuje głośnikom opinie na temat dokładności i płynności dźwięku mówionego. Przeczytaj dokumentację tutaj.

Zmiana powodująca niezgodność

  • JavaScript: PullAudioOutputStream.read() ma zmianę typu zwracanego z wewnętrznej obietnicy na natywną obietnicę języka JavaScript.

Poprawki błędów

  • Wszystko: Naprawiono regresję 1.13, w SetServiceProperty której wartości z pewnymi znakami specjalnymi były ignorowane.
  • C#: Naprawiono przykłady konsoli systemu Windows w programie Visual Studio 2019, które nie mogą znaleźć natywnych bibliotek DLL.
  • C#: Naprawiono awarię z zarządzaniem pamięcią, jeśli strumień jest używany jako KeywordRecognizer dane wejściowe.
  • ObjectiveC/Swift: Naprawiono awarię z zarządzaniem pamięcią, jeśli strumień jest używany jako dane wejściowe rozpoznawania.
  • Windows: rozwiązano problem z współistnieniem z protokołem BT HFP/A2DP w systemie UWP.
  • JavaScript: naprawiono mapowanie identyfikatorów sesji w celu ulepszenia rejestrowania i pomocy w wewnętrznych korelacjach debugowania/usługi.
  • JavaScript: dodano poprawkę do DialogServiceConnector wyłączania wywołań ListenOnce po wykonaniu pierwszego wywołania.
  • JavaScript: rozwiązano problem polegający na tym, że dane wyjściowe wyników zawsze stały się "proste".
  • JavaScript: rozwiązano problem z ciągłym rozpoznawaniem w przeglądarce Safari w systemie macOS.
  • JavaScript: ograniczenie obciążenia procesora CPU dla scenariusza o wysokiej przepływności żądań.
  • JavaScript: zezwalaj na dostęp do szczegółów wyniku rejestracji profilu głosowego.
  • JavaScript: dodano poprawkę do ciągłego rozpoznawania w programie IntentRecognizer.
  • C++/C#/Java/Python/Swift/ObjectiveC: Naprawiono niepoprawny adres URL dla elementu australiaeast i brazilsouth w elem.IntentRecognizer
  • C++/C#: Dodano VoiceProfileType jako argument podczas tworzenia VoiceProfile obiektu.
  • C++/C#/Java/Python/Swift/ObjectiveC: Naprawiono potencjał SPX_INVALID_ARG podczas próby odczytania AudioDataStream z danej pozycji.
  • IOS: naprawiono awarię z rozpoznawaniem mowy w środowisku Unity

Przykłady

Znany problem

  • Certyfikat Globalny główny G2 firmy DigiCert nie jest domyślnie obsługiwany w urządzeniach HoloLens 2 i Android 4.4 (KitKat) i musi zostać dodany do systemu, aby zestaw Speech SDK działał. Certyfikat zostanie dodany do obrazów systemu operacyjnego HoloLens 2 w najbliższej przyszłości. Klienci z systemem Android 4.4 muszą dodać zaktualizowany certyfikat do systemu.

Testy skrócone covid-19

Ze względu na zdalną pracę w ciągu ostatnich kilku tygodni nie mogliśmy wykonać tak bardzo ręcznego testowania weryfikacyjnego, jak zwykle. Nie wprowadziliśmy żadnych zmian, które naszym zdaniem mogły coś uszkodzić, a wszystkie nasze testy automatyczne przeszły. W mało prawdopodobnym przypadku, którego przegapiliśmy, daj nam znać w witrynie GitHub.
Bądź zdrowy!

Zestaw Speech SDK 1.13.0: wersja z lipca 2020 r.

Uwaga

Zestaw SPEECH SDK dla systemu Windows zależy od udostępnionego zestawu Microsoft Pakiet redystrybucyjny Visual C++ dla Visual Studio 2015, 2017 i 2019. Pobierz i zainstaluj go z tego miejsca.

Nowe funkcje

  • C#: Dodano obsługę asynchronicznej transkrypcji konwersacji. Zapoznaj się z dokumentacją tutaj.
  • JavaScript: dodano obsługę rozpoznawania osoby mówiącej zarówno dla przeglądarki , jak i Node.js.
  • JavaScript: dodano obsługę identyfikacji języka/identyfikatora języka. Zapoznaj się z dokumentacją tutaj.
  • Objective-C: Dodano obsługę transkrypcji konwersacji z wieloma urządzeniami i konwersacji.
  • Python: dodano obsługę skompresowanego dźwięku dla języka Python w systemach Windows i Linux. Zapoznaj się z dokumentacją tutaj.

Poprawki błędów

  • Wszystko: rozwiązano problem, który spowodował, że słowo kluczoweRecognizer nie przenosiło strumieni do przodu po rozpoznaniu.
  • Wszystko: rozwiązano problem, który spowodował, że strumień uzyskany z słowa kluczowegoRecognitionResult nie zawierał słowa kluczowego.
  • Wszystko: rozwiązano problem polegający na tym, że narzędzie SendMessageAsync nie wysyłało komunikatu za pośrednictwem przewodu po zakończeniu oczekiwania użytkowników.
  • Wszystko: Naprawiono awarię interfejsów API rozpoznawania osoby mówiącej, gdy użytkownicy wywołają metodę VoiceProfileClient::SpeakerRecEnrollProfileAsync wiele razy i nie czekali na zakończenie wywołań.
  • Wszystko: naprawiono włączanie rejestrowania plików w klasach VoiceProfileClient i SpeakerRecognizer.
  • JavaScript: rozwiązano problem z ograniczaniem przepustowości, gdy przeglądarka została zminimalizowana.
  • JavaScript: rozwiązano problem z wyciekiem pamięci w strumieniach.
  • JavaScript: dodano buforowanie odpowiedzi OCSP z usługi NodeJS.
  • Java: rozwiązano problem powodujący, że pola BigInteger zawsze zwracały wartość 0.
  • iOS: rozwiązano problem z publikowaniem aplikacji opartych na zestawie SPEECH SDK w sklepie App Store dla systemu iOS.

Przykłady

Testy skrócone covid-19

Ze względu na zdalną pracę w ciągu ostatnich kilku tygodni nie mogliśmy wykonać tak bardzo ręcznego testowania weryfikacyjnego, jak zwykle. Nie wprowadziliśmy żadnych zmian, które naszym zdaniem mogły coś uszkodzić, a wszystkie nasze testy automatyczne przeszły. W mało prawdopodobnym przypadku, którego przegapiliśmy, daj nam znać w witrynie GitHub.
Bądź zdrowy!

Zestaw Speech SDK 1.12.1: wersja z czerwca 2020 r.

Nowe funkcje

  • C#, C++: Wersja zapoznawcza rozpoznawania osoby mówiącej: ta funkcja umożliwia identyfikację osoby mówiącej (kto mówi?) i weryfikację osoby mówiącej (czy osoba mówiąca, która twierdzi, że?). Zapoznaj się z dokumentacją przeglądu.

Poprawki błędów

  • C#, C++: Stałe nagrywanie mikrofonu nie działało w wersji 1.12 w funkcji rozpoznawania osoby mówiącej.
  • JavaScript: poprawki dotyczące zamiany tekstu na mowę w przeglądarce Firefox i Safari w systemach macOS i iOS.
  • Poprawka dotycząca awarii naruszenia dostępu weryfikatora aplikacji systemu Windows podczas transkrypcji konwersacji podczas korzystania ze strumienia ośmiu kanałów.
  • Poprawka dotycząca awarii naruszenia dostępu weryfikatora aplikacji systemu Windows w przypadku tłumaczenia konwersacji z wieloma urządzeniami.

Przykłady

  • C#: Przykładowy kod rozpoznawania osoby mówiącej.
  • C++: przykład kodu do rozpoznawania osoby mówiącej.
  • Java: przykład kodu do rozpoznawania intencji w systemie Android.

Testy skrócone covid-19

Ze względu na zdalną pracę w ciągu ostatnich kilku tygodni nie mogliśmy wykonać tak bardzo ręcznego testowania weryfikacyjnego, jak zwykle. Nie wprowadziliśmy żadnych zmian, które naszym zdaniem mogły coś uszkodzić, a wszystkie nasze testy automatyczne przeszły. W mało prawdopodobnym przypadku, którego przegapiliśmy, daj nam znać w witrynie GitHub.
Bądź zdrowy!

Zestaw Speech SDK 1.12.0: wersja z maja 2020 r.

Nowe funkcje

  • Go: Nowa obsługa języka Go na potrzeby rozpoznawania mowy i niestandardowego asystenta głosowego. Skonfiguruj środowisko deweloperskie tutaj. Przykładowy kod można znaleźć w poniższej sekcji Przykłady.
  • JavaScript: dodano obsługę przeglądarki dla zamiany tekstu na mowę. Zapoznaj się z dokumentacją tutaj.
  • C++, C#, Java: nowe KeywordRecognizer obiekty i interfejsy API obsługiwane na platformach Windows, Android, Linux i iOS. Przeczytaj dokumentację tutaj. Przykładowy kod można znaleźć w poniższej sekcji Przykłady.
  • Java: dodano konwersację z wieloma urządzeniami z obsługą tłumaczenia. Zapoznaj się z dokumentacją referencyjną tutaj.

Ulepszenia i optymalizacje

  • JavaScript: zoptymalizowana implementacja mikrofonu przeglądarki poprawiająca dokładność rozpoznawania mowy.
  • Java: powiązania refaktoryzowane przy użyciu bezpośredniej implementacji JNI bez SWIG. Ta zmiana zmniejsza o 10 razy rozmiar powiązań dla wszystkich pakietów Java używanych dla systemów Windows, Android, Linux i Mac oraz ułatwia dalsze opracowywanie implementacji języka Java zestawu SPEECH SDK.
  • Linux: zaktualizowano dokumentację pomocy technicznej z najnowszymi uwagami specyficznymi dla systemu RHEL 7.
  • Ulepszona logika połączenia w celu wielokrotnego nawiązywania połączenia w przypadku wystąpienia błędów usługi i sieci.
  • Zaktualizowano stronę szybkiego startu portal.azure.com Speech, aby pomóc deweloperom wykonać kolejny krok w podróży po usłudze Azure AI Speech.

Poprawki błędów

  • C#, Java: rozwiązano problem z ładowaniem bibliotek zestawu SDK w usłudze ARM systemu Linux (zarówno w wersji 32-bitowej, jak i 64-bitowej).
  • C#: Stałe jawne usuwanie natywnych dojść dla obiektów TranslationRecognizer, IntentRecognizer i Connection.
  • C#: Naprawiono zarządzanie okresem istnienia danych wejściowych audio dla obiektu ConversationTranscriber.
  • Rozwiązano problem polegający na tym, że IntentRecognizer przyczyna wyniku nie została prawidłowo ustawiona podczas rozpoznawania intencji z prostych fraz.
  • Rozwiązano problem polegający na tym, że SpeechRecognitionEventArgs przesunięcie wyniku nie było poprawnie ustawione.
  • Naprawiono warunek wyścigu polegający na tym, że zestaw SDK próbował wysłać komunikat sieciowy przed otwarciem połączenia protokołu websocket. Można było odtworzyć podczas TranslationRecognizer dodawania uczestników.
  • Naprawiono przecieki pamięci w a aparatze rozpoznawania słów kluczowych.

Przykłady

Testy skrócone covid-19

Ze względu na zdalną pracę w ciągu ostatnich kilku tygodni nie mogliśmy wykonać tak bardzo ręcznego testowania weryfikacyjnego, jak zwykle. Nie wprowadziliśmy żadnych zmian, które naszym zdaniem mogły coś uszkodzić, a wszystkie nasze testy automatyczne przeszły. Jeśli coś przegapiliśmy, daj nam znać w witrynie GitHub.
Bądź zdrowy!

Zestaw Speech SDK 1.11.0: wersja z marca 2020 r.

Nowe funkcje

  • Linux: dodano obsługę systemu Red Hat Enterprise Linux (RHEL)/CentOS 7 x64.
  • Linux: dodano obsługę platformy .NET Core C# w systemie Linux ARM32 i Arm64. Przeczytaj więcej tutaj.
  • C#, C++: Dodano UtteranceId w ConversationTranscriptionResultpliku spójny identyfikator dla wszystkich pośrednich i końcowych wyników rozpoznawania mowy. Szczegóły dotyczące języka C#, C++.
  • Python: dodano obsługę elementu Language ID. Zobacz speech_sample.py w repozytorium GitHub.
  • Windows: dodano obsługę skompresowanego formatu wejściowego audio na platformie Windows dla wszystkich aplikacji konsolowych win32. Szczegóły znajdują się tutaj.
  • JavaScript: obsługa syntezy mowy (tekstu na mowę) w środowisku NodeJS. Dowiedz się więcej tutaj.
  • JavaScript: dodaj nowe interfejsy API, aby umożliwić inspekcję wszystkich wiadomości wysyłanych i odebranych. Dowiedz się więcej tutaj.

Poprawki błędów

  • C#, C++: Rozwiązano problem, więc SendMessageAsync teraz wysyła komunikat binarny jako typ binarny. Szczegóły dotyczące języka C#, C++.
  • C#, C++: Rozwiązano problem polegający na tym, że używanie Connection MessageReceived zdarzenia mogło spowodować awarię, jeśli Recognizer obiekt został usunięty przed obiektem Connection . Szczegóły dotyczące języka C#, C++.
  • Android: rozmiar buforu audio z mikrofonu zmniejszył się z 800 ms do 100 ms w celu zwiększenia opóźnienia.
  • Android: rozwiązano problem z emulatorem systemu Android x86 w programie Android Studio.
  • JavaScript: dodano obsługę regionów w Chinach za pomocą interfejsu fromSubscription API. Szczegóły znajdują się tutaj.
  • JavaScript: dodaj więcej informacji o błędach dotyczących niepowodzeń połączenia z usługi NodeJS.

Przykłady

  • Unity: przykład publiczny rozpoznawania intencji został naprawiony, gdzie importowanie pliku json usługi LUIS kończyło się niepowodzeniem. Szczegóły znajdują się tutaj.
  • Python: przykład dodany dla elementu Language ID. Szczegóły znajdują się tutaj.

Testy covid19 skrócone: ze względu na zdalną pracę w ciągu ostatnich kilku tygodni, nie mogliśmy wykonać tak bardzo ręcznego testowania weryfikacji urządzenia, jak zwykle. Na przykład nie można przetestować danych wejściowych mikrofonu i danych wyjściowych głośnika w systemach Linux, iOS i macOS. Nie wprowadziliśmy żadnych zmian, które naszym zdaniem mogłyby uszkodzić coś na tych platformach, a wszystkie nasze testy automatyczne przeszły. W mało prawdopodobnym przypadku, którego przegapiliśmy, daj nam znać w witrynie GitHub.
Dziękujemy za dalsze wsparcie. Jak zawsze opublikuj pytania lub opinię w witrynie GitHub lub Stack Overflow.
Bądź zdrowy!

Zestaw Speech SDK 1.10.0: wersja z lutego 2020 r.

Nowe funkcje

  • Dodano pakiety języka Python do obsługi nowej wersji 3.8 języka Python.
  • Obsługa systemu Red Hat Enterprise Linux (RHEL)/CentOS 8 x64 (C++, C#, Java, Python).

    Uwaga

    Klienci muszą skonfigurować protokół OpenSSL zgodnie z tymi instrukcjami.

  • Obsługa systemu Linux ARM32 dla systemów Debian i Ubuntu.
  • Program DialogServiceConnector obsługuje teraz opcjonalny parametr "identyfikator bota" w pliku BotFrameworkConfig. Ten parametr umożliwia korzystanie z wielu botów mowy direct line z pojedynczym zasobem mowy. Bez określonego parametru zostanie użyty domyślny bot (określony przez stronę konfiguracji kanału mowy direct line).
  • Właściwość DialogServiceConnector ma teraz właściwość SpeechActivityTemplate. Zawartość tego ciągu JSON będzie używana przez funkcję Direct Line Speech do wstępnego wypełniania wielu obsługiwanych pól we wszystkich działaniach, które docierają do bota mowy direct line, w tym działań generowanych automatycznie w odpowiedzi na zdarzenia, takie jak rozpoznawanie mowy.
  • TTS używa teraz klucza subskrypcji do uwierzytelniania, zmniejszając pierwsze opóźnienie bajtów pierwszego wyniku syntezy po utworzeniu syntezatora.
  • Zaktualizowano modele rozpoznawania mowy dla 19 ustawień regionalnych dla średniej redukcji współczynnika błędów słów o wartości 18,6% (es-ES, es-MX, fr-CA, fr-FR, it-IT, ja-JP, ko-KR, pt-BR, zh-CN, zh-HK, nb-NO, fi-FL, ru-RU, pl-PL, ca-ES, zh-TW, th-TH, pt-PT, tr-TR). Nowe modele przynoszą znaczące ulepszenia w wielu domenach, w tym Dyktowanie, transkrypcja call-center i scenariusze indeksowania wideo.

Poprawki błędów

  • Usunięto usterkę polegającą na tym, że transkrypcja konwersacji nie oczekiwała prawidłowo w interfejsach API języka JAVA
  • Rozwiązanie problemu z emulatorem x86 dla platformy Xamarin w usłudze GitHub
  • Brak dodawania (Pobierz|Set)Metody właściwości na AudioConfig
  • Naprawiono usterkę TTS polegającą na tym, że nie można zatrzymać elementu audioDataStream w przypadku niepowodzenia połączenia
  • Używanie punktu końcowego bez regionu spowodowałoby błędy USP dla translatora konwersacji
  • Generowanie identyfikatorów w aplikacjach uniwersalnych systemu Windows używa teraz odpowiednio unikatowego algorytmu GUID; wcześniej i nieumyślnie domyślnie domyślnie dokonywała implementacji stubbed, która często produkowała kolizje w dużych zestawach interakcji.

Przykłady

Inne zmiany

Zestaw Speech SDK 1.9.0: wydanie ze stycznia 2020 r.

Nowe funkcje

  • Konwersacja z wieloma urządzeniami: połącz wiele urządzeń z tą samą konwersacją opartą na mowie lub tekście i opcjonalnie przetłumacz wiadomości wysyłane między nimi. Dowiedz się więcej w tym artykule.
  • Dodano obsługę rozpoznawania słów kluczowych dla pakietu Android .aar i dodano obsługę wersji x86 i x64.
  • Objective-C: SendMessage i SetMessageProperty metody dodane do Connection obiektu. Zapoznaj się z dokumentacją tutaj.
  • Interfejs API języka C++ języka TTS obsługuje std::wstring teraz jako dane wejściowe tekstu syntezy, usuwając konieczność przekonwertowania ciągu na ciąg przed przekazaniem go do zestawu SDK. Więcej szczegółów można znaleźć tutaj.
  • C#: Identyfikator języka i konfiguracja języka źródłowego są teraz dostępne.
  • JavaScript: dodano funkcję do obiektu w Connection celu przekazywania niestandardowych komunikatów z usługi Mowa jako wywołania zwrotnego receivedServiceMessage.
  • JavaScript: dodano obsługę ułatwiania FromHost API korzystania z kontenerów lokalnych i suwerennych chmur. Zapoznaj się z dokumentacją tutaj.
  • JavaScript: Teraz dziękujemy NODE_TLS_REJECT_UNAUTHORIZED za wkład z orgadów. Więcej szczegółów można znaleźć tutaj.

Zmiany powodujące niezgodność

  • OpenSSL Została zaktualizowana do wersji 1.1.1b i jest statycznie połączona z podstawową biblioteką zestawu SPEECH SDK dla systemu Linux. Może to spowodować przerwanie, jeśli skrzynka odbiorcza OpenSSL nie została zainstalowana /usr/lib/ssl w katalogu w systemie. Zapoznaj się z naszą dokumentacją w dokumentacji zestawu SPEECH SDK, aby obejść ten problem.
  • Zmieniliśmy typ danych zwracany dla języka C# WordLevelTimingResult.Offset z int na long , aby umożliwić dostęp do WordLevelTimingResults danych mowy, gdy dane mowy są dłuższe niż 2 minuty.
  • PushAudioInputStream a PullAudioInputStream teraz wysyłaj informacje nagłówka wav do usługi Rozpoznawanie mowy na AudioStreamFormatpodstawie , opcjonalnie określone podczas ich tworzenia. Klienci muszą teraz używać obsługiwanego formatu wejściowego audio. Wszystkie inne formaty otrzymają nieoptymalne wyniki rozpoznawania lub mogą powodować inne problemy.

Poprawki błędów

  • Zobacz aktualizację w OpenSSL obszarze Zmiany powodujące niezgodność powyżej. Rozwiązaliśmy zarówno sporadyczne awarie, jak i problem z wydajnością (rywalizacja o blokowanie pod dużym obciążeniem) w systemach Linux i Java.
  • Java: wprowadzono ulepszenia zamknięcia obiektów w scenariuszach o wysokiej współbieżności.
  • Zrestrukturyzował nasz pakiet NuGet. Usunęliśmy trzy kopie Microsoft.CognitiveServices.Speech.core.dll folderów lib i Microsoft.CognitiveServices.Speech.extension.kws.dll w folderach lib, dzięki czemu pakiet NuGet jest mniejszy i szybszy do pobrania, a dodaliśmy nagłówki potrzebne do skompilowania niektórych aplikacji natywnych języka C++.
  • Naprawiono tutaj przykłady z przewodnika Szybki start. Zakończyły się one bez wyświetlania wyjątku "nie znaleziono mikrofonu" w systemie Linux, macOS, Windows.
  • Naprawiono awarię zestawu SDK z długimi wynikami rozpoznawania mowy w niektórych ścieżkach kodu, takich jak ten przykład.
  • Rozwiązano problem z błędem wdrażania zestawu SDK w środowisku aplikacji internetowej platformy Azure.
  • Rozwiązano problem z błędem TTS podczas używania tagu wielokrotnego <voice> lub <audio> tagu w celu rozwiązania tego problemu klienta.
  • Naprawiono błąd TTS 401 po odzyskaniu zestawu SDK z wstrzymania.
  • JavaScript: Naprawiono cykliczny import danych audio dzięki kontrybucji z euirim.
  • JavaScript: dodano obsługę ustawiania właściwości usługi, jak dodano w wersji 1.7.
  • JavaScript: rozwiązano problem polegający na tym, że błąd połączenia mógł spowodować ciągłe, nieudane próby ponownego nawiązania połączenia z zestawem websocket.

Przykłady

Inne zmiany

  • Zoptymalizowany rozmiar biblioteki podstawowej zestawu SDK w systemie Android.
  • Zestaw SDK w wersji 1.9.0 i nowszych obsługuje zarówno typy, jak int i string w polu wersji podpisu głosowego dla transkrypcji konwersacji.

Zestaw Speech SDK 1.8.0: wydanie z listopada 2019 r.

Nowe funkcje

  • FromHost() Dodano interfejs API, aby ułatwić korzystanie z kontenerów lokalnych i suwerennych chmur.
  • Dodano identyfikację języka źródłowego na potrzeby rozpoznawania mowy (w językach Java i C++)
  • Dodano SourceLanguageConfig obiekt rozpoznawania mowy używany do określania oczekiwanych języków źródłowych (w językach Java i C++)
  • Dodano KeywordRecognizer obsługę systemów Windows (UWP), Android i iOS za pośrednictwem pakietów NuGet i Unity
  • Dodano zdalny interfejs API języka Java do transkrypcji konwersacji w partiach asynchronicznych.

Zmiany powodujące niezgodność

  • Funkcje transkrypcji konwersacji zostały przeniesione w obszarze przestrzeni nazw Microsoft.CognitiveServices.Speech.Transcription.
  • Części metod transkrypcji konwersacji są przenoszone do nowej Conversation klasy.
  • Porzucona obsługa 32-bitowego systemu iOS (ARMv7 i x86)

Poprawki błędów

  • Poprawka dotycząca awarii w przypadku użycia lokalnego KeywordRecognizer bez prawidłowego klucza subskrypcji usługi Mowa

Przykłady

  • Przykład platformy Xamarin dla programu KeywordRecognizer
  • Przykład aparatu Unity dla KeywordRecognizer
  • Przykłady języków C++ i Java na potrzeby automatycznej identyfikacji języka źródłowego.

Zestaw Speech SDK 1.7.0: wydanie z września 2019 r.

Nowe funkcje

  • Dodano obsługę wersji beta dla platformy Xamarin na platformie platforma uniwersalna systemu Windows (UWP), Android i iOS
  • Dodano obsługę systemu iOS dla aparatu Unity
  • Dodano Compressed obsługę danych wejściowych dla aplikacji ALaw, Mulaw, FLAC, w systemach Android, iOS i Linux
  • Dodano SendMessageAsync w Connection klasie do wysyłania komunikatu do usługi
  • Dodano SetMessageProperty w Connection klasie do ustawiania właściwości komunikatu
  • Dodano powiązania TTS dla języków Java (JRE i Android), Python, Swift i Objective-C
  • Funkcja TTS dodała obsługę odtwarzania dla systemów macOS, iOS i Android.
  • Dodano informacje "granice wyrazów" dla TTS.

Poprawki błędów

  • Rozwiązano problem z kompilacją IL2CPP w środowisku Unity 2019 dla systemu Android
  • Rozwiązano problem z nieprawidłowo sformułowanymi nagłówkami w danych wejściowych pliku wav, które były przetwarzane niepoprawnie
  • Rozwiązano problem z identyfikatorami UUID, które nie były unikatowe we właściwościach połączenia
  • Naprawiono kilka ostrzeżeń dotyczących specyfikatorów wartości null w powiązaniach swift (może wymagać niewielkich zmian w kodzie)
  • Usunięto usterkę, która powodowała, że połączenia protokołu Websocket były zamykane niegracyjnie pod obciążeniem sieci
  • Rozwiązano problem w systemie Android, który czasami powoduje zduplikowane identyfikatory wyświetleń używane przez DialogServiceConnector
  • Ulepszenia stabilności połączeń w interakcjach obejmujących wiele obrotu oraz raportowanie błędów (za pośrednictwem Canceled zdarzeń) w przypadku wystąpienia DialogServiceConnector
  • DialogServiceConnectorRozpoczęcie sesji będzie teraz prawidłowo dostarczać zdarzenia, w tym podczas wywoływania podczas aktywnego działania ListenOnceAsync()StartKeywordRecognitionAsync()
  • Rozwiązano problem z awarią skojarzona z DialogServiceConnector odbieranymi działaniami

Przykłady

  • Szybki start dla platformy Xamarin
  • Zaktualizowano przewodnik Szybki start CPP z informacjami o systemie Linux Arm64
  • Zaktualizowany przewodnik Szybki start dla aparatu Unity z informacjami o systemie iOS

Zestaw Speech SDK 1.6.0: wersja z czerwca 2019 r.

Przykłady

  • Przykłady z przewodnika Szybki start dotyczące zamiany tekstu na mowę na platformie UWP i aparatu Unity
  • Przykład szybkiego startu dla języka Swift w systemie iOS
  • Przykłady aparatu Unity do rozpoznawania i tłumaczenia mowy i intencji
  • Zaktualizowano przykłady szybkiego startu dla DialogServiceConnector

Ulepszenia/zmiany

  • Przestrzeń nazw okna dialogowego:
    • Zmieniono nazwę polecenia SpeechBotConnector na DialogServiceConnector
    • Zmieniono nazwę polecenia BotConfig na DialogServiceConfig
    • BotConfig::FromChannelSecret() został ponownie zamapowany na DialogServiceConfig::FromBotSecret()
    • Wszyscy istniejący klienci mowy direct line nadal są obsługiwani po zmianie nazwy
  • Aktualizowanie adaptera REST TTS w celu obsługi serwera proxy, trwałego połączenia
  • Poprawianie komunikatu o błędzie po przekazaniu nieprawidłowego regionu
  • Swift/Objective-C:
    • Ulepszone raportowanie błędów: Metody, które mogą spowodować błąd, są teraz obecne w dwóch wersjach: jeden, który uwidacznia NSError obiekt do obsługi błędów, i jeden, który zgłasza wyjątek. Były są narażone na Swift. Ta zmiana wymaga dostosowania do istniejącego kodu Swift.
    • Ulepszona obsługa zdarzeń

Poprawki błędów

  • Poprawka dotycząca TTS: gdzie SpeakTextAsync przyszłość została zwrócona bez oczekiwania na ukończenie renderowania dźwięku
  • Poprawka dotycząca marshalingu ciągów w języku C# w celu włączenia obsługi pełnego języka
  • Poprawka problemu z aplikacją .NET Core w celu załadowania biblioteki podstawowej za pomocą platformy docelowej net461 w przykładach
  • Rozwiązanie problemów z okazjonalnymi problemami dotyczącymi wdrażania bibliotek natywnych w folderze wyjściowym w przykładach
  • Poprawka dotycząca niezawodnego zamykania gniazd internetowych
  • Poprawka umożliwiająca awarię podczas otwierania połączenia pod dużym obciążeniem w systemie Linux
  • Poprawka dotycząca brakujących metadanych w pakiecie platformy dla systemu macOS
  • Rozwiązywanie problemów z systemem pip install --user Windows

Zestaw Speech SDK 1.5.1

Jest to wersja poprawki błędów, która ma wpływ tylko na natywny/zarządzany zestaw SDK. Nie ma to wpływu na wersję zestawu SDK języka JavaScript.

Poprawki błędów

  • Poprawka z podskrypcji w przypadku użycia z transkrypcją konwersacji.
  • Naprawiono usterkę w wykryciu słowa kluczowego dla asystentów głosowych.

Zestaw Speech SDK 1.5.0: wersja z maja 2019 r.

Nowe funkcje

  • Wykrywanie słów kluczowych (KWS) jest teraz dostępne dla systemów Windows i Linux. Funkcja KWS może działać z dowolnym typem mikrofonu, oficjalną obsługą KWS, jednak obecnie jest ograniczona do tablic mikrofonów znajdujących się na sprzęcie Azure Kinect DK lub zestawie SDK urządzeń rozpoznawania mowy.
  • Funkcje wskazówek dotyczących fraz są dostępne za pośrednictwem zestawu SDK. Więcej informacji można znaleźć tutaj.
  • Funkcje transkrypcji konwersacji są dostępne za pośrednictwem zestawu SDK.
  • Dodaj obsługę asystentów głosowych przy użyciu kanału mowy direct line.

Przykłady

  • Dodano przykłady nowych funkcji lub nowych usług obsługiwanych przez zestaw SDK.

Ulepszenia/zmiany

  • Dodano różne właściwości rozpoznawania w celu dostosowania zachowania usługi lub wyników usługi (takich jak maskowanie wulgaryzmów i innych).
  • Teraz można skonfigurować rozpoznawanie za pomocą standardowych właściwości konfiguracji, nawet jeśli utworzono rozpoznawanie FromEndpoint.
  • Objective-C: OutputFormat właściwość została dodana do klasy SPXSpeechConfiguration.
  • Zestaw SDK obsługuje teraz debian 9 jako dystrybucję systemu Linux.

Poprawki błędów

  • Rozwiązano problem polegający na tym, że zasób osoby mówiącej został zdestrukowany zbyt wcześnie w tekście na mowę.

Zestaw Speech SDK 1.4.2

Jest to wersja poprawki błędów, która ma wpływ tylko na natywny/zarządzany zestaw SDK. Nie ma to wpływu na wersję zestawu SDK języka JavaScript.

Zestaw SPEECH SDK 1.4.1

Jest to wersja tylko dla języka JavaScript. Nie dodano żadnych funkcji. Wprowadzono następujące poprawki:

  • Uniemożliwianie ładowania pakietu internetowego https-proxy-agent.

Zestaw Speech SDK 1.4.0: wersja z kwietnia 2019 r.

Nowe funkcje

  • Zestaw SDK obsługuje teraz usługę Zamiana tekstu na mowę jako wersję beta. Jest on obsługiwany w systemach Windows i Linux Desktop z języków C++ i C#. Aby uzyskać więcej informacji, zobacz Omówienie zamiany tekstu na mowę.
  • Zestaw SDK obsługuje teraz pliki audio MP3 i Opus/OGG jako pliki wejściowe strumienia. Ta funkcja jest dostępna tylko w systemie Linux w językach C++ i C# i jest obecnie dostępna w wersji beta (więcej szczegółów znajdziesz tutaj).
  • Zestaw SPEECH SDK dla języków Java, .NET Core, C++ i Objective-C zyskał obsługę systemu macOS. Obsługa języka Objective-C dla systemu macOS jest obecnie dostępna w wersji beta.
  • iOS: zestaw SPEECH SDK dla systemu iOS (Objective-C) jest teraz również publikowany jako CocoaPod.
  • JavaScript: obsługa mikrofonu innego niż domyślny jako urządzenie wejściowe.
  • JavaScript: obsługa serwera proxy dla Node.js.

Przykłady

  • Dodano przykłady używania zestawu Speech SDK z językiem C++ i języka Objective-C w systemie macOS.
  • Dodano przykłady pokazujące użycie usługi zamiany tekstu na mowę.

Ulepszenia/zmiany

  • Python: dodatkowe właściwości wyników rozpoznawania są teraz uwidocznione za pośrednictwem properties właściwości .
  • Aby uzyskać dodatkową obsługę programowania i debugowania, możesz przekierować informacje dotyczące rejestrowania i diagnostyki zestawu SDK do pliku dziennika (więcej szczegółów znajdziesz tutaj).
  • JavaScript: zwiększanie wydajności przetwarzania dźwięku.

Poprawki błędów

  • Mac/iOS: Usunięto usterkę, która doprowadziła do długiego oczekiwania, gdy nie można było ustanowić połączenia z usługą Mowa.
  • Python: ulepszanie obsługi błędów dla argumentów w wywołaniach zwrotnych języka Python.
  • JavaScript: naprawiono nieprawidłowe raportowanie stanu mowy zakończone na żądanieSession.

Zestaw Speech SDK 1.3.1: odświeżanie z lutego 2019 r.

Jest to wersja poprawki błędów, która ma wpływ tylko na natywny/zarządzany zestaw SDK. Nie ma to wpływu na wersję zestawu SDK języka JavaScript.

Poprawka

  • Naprawiono przeciek pamięci podczas korzystania z wejścia mikrofonu. Nie ma to wpływu na dane wejściowe oparte na strumieniu lub pliku.

Zestaw Speech SDK 1.3.0: wersja z lutego 2019 r.

Nowe funkcje

  • Zestaw SPEECH SDK obsługuje wybór mikrofonu wejściowego za pośrednictwem AudioConfig klasy . Dzięki temu można przesyłać strumieniowo dane audio do usługi Mowa z mikrofonu innego niż domyślny. Aby uzyskać więcej informacji, zobacz dokumentację opisującą wybór urządzenia wejściowego audio. Ta funkcja nie jest jeszcze dostępna w języku JavaScript.
  • Zestaw SPEECH SDK obsługuje teraz aparat Unity w wersji beta. Prześlij opinię za pośrednictwem sekcji problemu w repozytorium przykładowym GitHub. Ta wersja obsługuje aparat Unity w systemach Windows x86 i x64 (aplikacje klasyczne lub platforma uniwersalna systemu Windows) i Android (ARM32/64, x86). Więcej informacji jest dostępnych w naszym przewodniku Szybki start dla aparatu Unity.
  • Plik Microsoft.CognitiveServices.Speech.csharp.bindings.dll (dostarczany w poprzednich wersjach) nie jest już potrzebny. Funkcje są teraz zintegrowane z podstawowym zestawem SDK.

Przykłady

Następująca nowa zawartość jest dostępna w naszym przykładowym repozytorium:

  • Dodatkowe przykłady dla programu AudioConfig.FromMicrophoneInput.
  • Dodatkowe przykłady języka Python do rozpoznawania intencji i tłumaczenia.
  • Dodatkowe przykłady użycia Connection obiektu w systemie iOS.
  • Dodatkowe przykłady języka Java do tłumaczenia z danymi wyjściowymi dźwięku.
  • Nowy przykład użycia interfejsu API REST transkrypcji wsadowej.

Ulepszenia/zmiany

  • Pyton
    • Ulepszona weryfikacja parametru i komunikaty o błędach w pliku SpeechConfig.
    • Dodaj obsługę Connection obiektu .
    • Obsługa 32-bitowego języka Python (x86) w systemie Windows.
    • Zestaw Speech SDK dla języka Python jest niedostępny w wersji beta.
  • Ios
    • Zestaw SDK jest teraz kompilowany z zestawem SDK systemu iOS w wersji 12.1.
    • Zestaw SDK obsługuje teraz system iOS w wersji 9.2 lub nowszej.
    • Popraw dokumentację referencyjną i popraw kilka nazw właściwości.
  • JavaScript
    • Dodaj obsługę Connection obiektu .
    • Dodawanie plików definicji typów dla pakietu JavaScript
    • Początkowa obsługa i implementacja wskazówek dotyczących fraz.
    • Zwracanie kolekcji właściwości z plikiem JSON usługi na potrzeby rozpoznawania
  • Biblioteki DLL systemu Windows zawierają teraz zasób wersji.
  • Jeśli tworzysz rozpoznawanie FromEndpoint, możesz dodać parametry bezpośrednio do adresu URL punktu końcowego. Nie FromEndpoint można skonfigurować rozpoznawania za pomocą standardowych właściwości konfiguracji.

Poprawki błędów

  • Pusta nazwa użytkownika serwera proxy i hasło serwera proxy nie były poprawnie obsługiwane. W tej wersji, jeśli ustawisz nazwę użytkownika serwera proxy i hasło serwera proxy na pusty ciąg, nie zostaną one przesłane podczas nawiązywania połączenia z serwerem proxy.
  • Identyfikator sessionId utworzony przez zestaw SDK nie zawsze był naprawdę losowy dla niektórych języków/środowisk. Dodano inicjowanie generatora losowego, aby rozwiązać ten problem.
  • Popraw obsługę tokenu autoryzacji. Jeśli chcesz użyć tokenu autoryzacji, określ w SpeechConfig polu i pozostaw pusty klucz subskrypcji. Następnie utwórz rozpoznawanie w zwykły sposób.
  • W niektórych przypadkach Connection obiekt nie został poprawnie zwolniony. Ten problem został rozwiązany.
  • Przykład języka JavaScript został naprawiony w celu obsługi danych wyjściowych audio na potrzeby syntezy tłumaczenia również w przeglądarce Safari.

Zestaw Speech SDK 1.2.1

Jest to wersja tylko dla języka JavaScript. Nie dodano żadnych funkcji. Wprowadzono następujące poprawki:

  • Odpal koniec strumienia na turn.end, a nie na speech.end.
  • Usunięto usterkę w pompie audio, która nie planowała następnego wysłania, jeśli bieżące wysyłanie nie powiodło się.
  • Napraw ciągłe rozpoznawanie za pomocą tokenu uwierzytelniania.
  • Poprawka usterek dla różnych punktów końcowych/rozpoznawania.
  • Ulepszenia dokumentacji.

Zestaw Speech SDK 1.2.0: wersja z grudnia 2018 r.

Nowe funkcje

  • Pyton
    • Wersja beta obsługi języka Python (wersja 3.5 lub nowsza) jest dostępna w tej wersji. Aby uzyskać więcej informacji, zobacz tutaj](.. /.. /quickstart-python.md).
  • JavaScript
    • Zestaw SPEECH SDK dla języka JavaScript został typu open source. Kod źródłowy jest dostępny w witrynie GitHub.
    • Teraz obsługujemy Node.js. Więcej informacji można znaleźć tutaj.
    • Ograniczenie długości sesji audio zostało usunięte, ponowne nawiązywanie połączenia nastąpi automatycznie pod przykrywką.
  • Connection sprzeciwiać się
    • Z obiektu Recognizermożna uzyskać dostęp do Connection obiektu . Ten obiekt umożliwia jawne zainicjowanie połączenia z usługą i subskrybowanie zdarzeń łączenia i rozłączania. (Ta funkcja nie jest jeszcze dostępna w językach JavaScript i Python).
  • Obsługa systemu Ubuntu 18.04.
  • Android
    • Włączona obsługa narzędzia ProGuard podczas generowania pakietu APK.

Ulepszenia

  • Ulepszenia użycia wątków wewnętrznych, zmniejszenie liczby wątków, blokad, teksów.
  • Ulepszone raportowanie błędów/informacje. W kilku przypadkach komunikaty o błędach nie zostały rozpropagowane przez cały czas.
  • Zaktualizowano zależności programistyczne w języku JavaScript, aby używać aktualnych modułów.

Poprawki błędów

  • Naprawiono przecieki pamięci z powodu niezgodności typu w pliku RecognizeAsync.
  • W niektórych przypadkach wyciekły wyjątki.
  • Naprawianie przecieku pamięci w argumentach zdarzeń tłumaczenia.
  • Rozwiązano problem z blokowaniem ponownego nawiązywania połączenia w długotrwałych sesjach.
  • Rozwiązano problem, który mógł prowadzić do braku wyniku końcowego w przypadku nieudanych tłumaczeń.
  • C#: Jeśli async operacja nie była oczekiwana w wątku głównym, możliwe, że rozpoznawanie może zostać usunięte przed ukończeniem zadania asynchronicznego.
  • Java: rozwiązano problem powodujący awarię maszyny wirtualnej Java.
  • Objective-C: Stałe mapowanie wyliczenia; Wartość RecognizedIntent została zwrócona zamiast RecognizingIntent.
  • JavaScript: ustaw domyślny format danych wyjściowych na wartość "simple" w pliku SpeechConfig.
  • JavaScript: usuwanie niespójności między właściwościami obiektu konfiguracji w języku JavaScript i innych językach.

Przykłady

  • Zaktualizowano i naprawiono kilka przykładów (na przykład głosy wyjściowe do tłumaczenia itp.).
  • Dodano przykłady Node.js w przykładowym repozytorium.

Zestaw Speech SDK 1.1.0

Nowe funkcje

  • Obsługa systemu Android x86/x64.
  • Obsługa serwera proxy: w SpeechConfig obiekcie można teraz wywołać funkcję, aby ustawić informacje o serwerze proxy (nazwa hosta, port, nazwa użytkownika i hasło). Ta funkcja nie jest jeszcze dostępna w systemie iOS.
  • Ulepszony kod błędu i komunikaty. Jeśli funkcja rozpoznawania zwróciła błąd, ustawiono to już Reason (w anulowanym zdarzeniu) lub CancellationDetails (w wyniku rozpoznawania) na Errorwartość . Anulowane zdarzenie zawiera teraz dwa dodatkowe elementy członkowskie i ErrorCode ErrorDetails. Jeśli serwer zwrócił dodatkowe informacje o błędzie z zgłoszonym błędem, będzie teraz dostępny w nowych elementach członkowskich.

Ulepszenia

  • Dodano dodatkową weryfikację w konfiguracji rozpoznawania i dodano dodatkowy komunikat o błędzie.
  • Ulepszona obsługa długiej ciszy w środku pliku audio.
  • Pakiet NuGet: w przypadku projektów .NET Framework uniemożliwia kompilowanie przy użyciu konfiguracji Platformy AnyCPU.

Poprawki błędów

  • Naprawiono kilka wyjątków znalezionych w funkcjach rozpoznawania. Ponadto wyjątki są przechwytywane i konwertowane na Canceled zdarzenie.
  • Napraw przeciek pamięci w zarządzaniu właściwościami.
  • Usunięto usterkę, w której plik wejściowy audio mógł spowodować awarię rozpoznawania.
  • Usunięto usterkę polegającą na tym, że zdarzenia mogły być odbierane po zdarzeniu zatrzymania sesji.
  • Naprawiono niektóre warunki wyścigu w wątkowaniu.
  • Rozwiązano problem ze zgodnością systemu iOS, który mógł spowodować awarię.
  • Ulepszenia stabilności dla obsługi mikrofonu systemu Android.
  • Usunięto usterkę polegającą na tym, że rozpoznawanie w języku JavaScript powodowało ignorowanie języka rozpoznawania.
  • Usunięto usterkę uniemożliwiającą EndpointId ustawienie (w niektórych przypadkach) w języku JavaScript.
  • Zmieniono kolejność parametrów w elemencie AddIntent w języku JavaScript i dodano brak podpisu AddIntent JavaScript.

Przykłady

  • Dodano przykłady języków C++ i C# na potrzeby użycia strumienia ściągania i wypychania w przykładowym repozytorium.

Zestaw Speech SDK 1.0.1

Ulepszenia niezawodności i poprawki błędów:

  • Naprawiono potencjalny błąd krytyczny spowodowany stanem wyścigu w rozpoznawaniu
  • Naprawiono potencjalny błąd krytyczny w przypadku wystąpienia nieustawionych właściwości.
  • Dodano dodatkowy błąd i sprawdzanie parametrów.
  • Objective-C: Naprawiono możliwy błąd krytyczny spowodowany zastąpieniem nazwy w NSString.
  • Objective-C: Skorygowana widoczność interfejsu API
  • JavaScript: naprawiono problem dotyczący zdarzeń i ich ładunków.
  • Ulepszenia dokumentacji.

W naszym przykładowym repozytorium dodano nowy przykład dla języka JavaScript.

Zestaw Azure AI Speech SDK 1.0.0: wydanie z września 2018 r.

Nowe funkcje

Zmiany powodujące niezgodność

  • W tej wersji wprowadzono szereg zmian powodujących niezgodność. Sprawdź tę stronę , aby uzyskać szczegółowe informacje.

Zestaw Azure AI Speech SDK 0.6.0: wydanie z sierpnia 2018 r.

Nowe funkcje

  • Aplikacje platformy UWP utworzone za pomocą zestawu SPEECH SDK mogą teraz przekazywać zestaw certyfikacji aplikacji systemu Windows (WACK). Zapoznaj się z przewodnikiem Szybki start platformy UWP.
  • Obsługa platformy .NET Standard 2.0 w systemie Linux (Ubuntu 16.04 x64).
  • Eksperymentalne: obsługa języka Java 8 w systemach Windows (64-bitowych) i Linux (Ubuntu 16.04 x64). Zapoznaj się z przewodnikiem Szybki start środowiska uruchomieniowego Języka Java.

Zmiana funkcjonalna

  • Uwidacznianie dodatkowych informacji o błędach dotyczących błędów połączenia.

Zmiany powodujące niezgodność

  • W języku Java (Android) SpeechFactory.configureNativePlatformBindingWithDefaultCertificate funkcja nie wymaga już parametru ścieżki. Teraz ścieżka jest automatycznie wykrywana na wszystkich obsługiwanych platformach.
  • Usunięto metodę get-accessor właściwości EndpointUrl w językach Java i C#.

Poprawki błędów

  • W języku Java wynik syntezy dźwięku w rozpoznawaniu tłumaczenia jest teraz implementowany.
  • Usunięto usterkę, która mogła powodować nieaktywne wątki i zwiększoną liczbę otwartych i nieużywanych gniazd.
  • Rozwiązano problem polegający na tym, że długotrwałe rozpoznawanie mogło zakończyć się w środku transmisji.
  • Naprawiono stan wyścigu w zamykaniu rozpoznawania.

Zestaw Azure AI Speech SDK 0.5.0: wersja z lipca 2018 r.

Nowe funkcje

  • Obsługa platformy android (interfejs API 23: Android 6.0 Marshmallow lub nowszy). Zapoznaj się z przewodnikiem Szybki start dla systemu Android.
  • Obsługa platformy .NET Standard 2.0 w systemie Windows. Zapoznaj się z przewodnikiem Szybki start platformy .NET Core.
  • Eksperymentalne: obsługa platformy UWP w systemie Windows (wersja 1709 lub nowsza).
    • Zapoznaj się z przewodnikiem Szybki start platformy UWP.
    • Należy pamiętać, że aplikacje platformy UWP utworzone za pomocą zestawu SPEECH SDK nie przekazują jeszcze zestawu Certyfikacji aplikacji systemu Windows (WACK).
  • Obsługa długotrwałego rozpoznawania za pomocą automatycznego ponownego łączenia.

Zmiany funkcjonalne

  • StartContinuousRecognitionAsync() obsługuje długotrwałe rozpoznawanie.
  • Wynik rozpoznawania zawiera więcej pól. Są one przesunięte od początku dźwięku i czasu trwania (zarówno w znacznikach) rozpoznanego tekstu, jak i dodatkowych wartości reprezentujących stan rozpoznawania, na przykład InitialSilenceTimeout i InitialBabbleTimeout.
  • Obsługa tokenu AuthorizationToken na potrzeby tworzenia wystąpień fabryki.

Zmiany powodujące niezgodność

  • Zdarzenia rozpoznawania: NoMatch typ zdarzenia został scalony ze zdarzeniem Error .
  • Nazwa elementu SpeechOutputFormat w języku C# została zmieniona na OutputFormat , aby zachować dopasowanie do języka C++.
  • Zwracany typ niektórych metod interfejsu AudioInputStream nieco się zmienił:
    • W języku read Java metoda zwraca long teraz wartość zamiast int.
    • W języku Read C# metoda zwraca uint teraz zamiast int.
    • W języku C++ Read metody i GetFormat zwracają size_t teraz zamiast int.
  • C++: Wystąpienia strumieni wejściowych audio można teraz przekazywać tylko jako shared_ptr.

Poprawki błędów

  • Naprawiono nieprawidłowe wartości zwracane w wyniku, gdy RecognizeAsync() upłynął limit czasu.
  • Zależność od bibliotek podstaw multimediów w systemie Windows została usunięta. Zestaw SDK używa teraz podstawowych interfejsów API audio.
  • Poprawka dokumentacji: dodano stronę regionów w celu opisania obsługiwanych regionów.

Znany problem

  • Zestaw Speech SDK dla systemu Android nie zgłasza wyników syntezy mowy na potrzeby tłumaczenia. Ten problem zostanie rozwiązany w następnej wersji.

Zestaw Azure AI Speech SDK 0.4.0: wersja z 2018 r. do czerwca

Zmiany funkcjonalne

  • AudioInputStream

    Rozpoznawanie może teraz używać strumienia jako źródła audio. Aby uzyskać więcej informacji, zobacz powiązany przewodnik z instrukcjami.

  • Szczegółowy format danych wyjściowych

    Podczas tworzenia elementu SpeechRecognizermożna zażądać Detailed lub Simple format danych wyjściowych. Zawiera DetailedSpeechRecognitionResult współczynnik ufności, rozpoznany tekst, nieprzetworzony formularz leksykalny, znormalizowany formularz i znormalizowany formularz z maskowaną wulgaryzmem.

Zmiana powodująca niezgodność

  • Zmieniono wartość na SpeechRecognitionResult.Text z SpeechRecognitionResult.RecognizedText w języku C#.

Poprawki błędów

  • Rozwiązano możliwy problem z wywołaniem zwrotnym w warstwie USP podczas zamykania.
  • Jeśli rozpoznawanie używa pliku wejściowego audio, trzymał się do uchwytu pliku dłużej niż jest to konieczne.
  • Usunięto kilka zakleszczeń między pompą komunikatu a rozpoznawaniem.
  • Wyzwol wynik NoMatch po przekroczeniu limitu czasu odpowiedzi z usługi.
  • Biblioteki podstaw multimediów w systemie Windows są ładowane z opóźnieniem. Ta biblioteka jest wymagana tylko w przypadku wejścia mikrofonu.
  • Szybkość przekazywania danych audio jest ograniczona do około dwukrotnie większej szybkości oryginalnego dźwięku.
  • W systemie Windows zestawy .NET języka C# są teraz silne.
  • Poprawka dokumentacji: Region jest wymagana informacja do utworzenia aparatu rozpoznawania.

Dodano więcej przykładów i jest stale aktualizowanych. Aby zapoznać się z najnowszym zestawem przykładów, zobacz repozytorium GitHub przykłady zestawu SDK usługi Mowa.

Azure AI Speech SDK 0.2.12733: wersja z 2018 r.

Ta wersja to pierwsza publiczna wersja zapoznawcza zestawu AZURE AI Speech SDK.