Übersicht über Audiostreaming: Audioabonnement

Artikel
01/08/2025

Wichtig

Die in diesem Artikel beschriebenen Funktionen befinden sich derzeit in der öffentlichen Vorschauphase. Diese Vorschauversion wird ohne Vereinbarung zum Servicelevel bereitgestellt und ist nicht für Produktionsworkloads vorgesehen. Manche Features werden möglicherweise nicht unterstützt oder sind nur eingeschränkt verwendbar. Weitere Informationen finden Sie unter Zusätzliche Nutzungsbestimmungen für Microsoft Azure-Vorschauen.

Azure Communication Services bietet Audio-Streamingfunktionen und gibt Entwicklern leistungsstarke Tools an die Hand, mit denen sie Audioinhalte während aktiver Anrufe erfassen, analysieren und verarbeiten können. Diese Entwicklung eröffnet Entwicklern und Unternehmen gleichermaßen neue Möglichkeiten in der Echtzeitkommunikation.

Durch die Integration von bidirektionalem Audio-Streaming mit Diensten wie Azure OpenAI und anderen Echtzeit-Voice-APIs können Unternehmen eine nahtlose Kommunikation mit geringer Latenz erreichen. Daraus ergeben sich erhebliche Vorteile für die Entwicklung und Bereitstellung von KI-Konversationslösungen, die ansprechendere und effizientere Interaktionen ermöglichen.

Mit bidirektionalem Streaming können Unternehmen ihre Sprachlösungen jetzt auf KI-Agenten mit geringer Latenz, menschenähnlicher Interaktion und Konversationsfähigkeit erweitern. Dank unserer bidirektionalen Streaming-APIs können Entwickler Audioinhalte von einem laufenden Anruf über Azure Communication Services in Echtzeit auf ihre Webserver streamen und umgekehrt Audioinhalte in den Anruf zurückstreamen. Zwar liegt der primäre Fokus dieser Features darauf, Unternehmen bei der Erstellung von KI-Konversationsagents zu unterstützen, doch es gibt auch andere Anwendungsfälle, wie die Verarbeitung natürlicher Sprache für die Konversationsanalyse oder die Bereitstellung von Echtzeit-Einblicken und -Vorschlägen für Agents, während diese in aktiver Interaktion mit Endbenutzern stehen.

Diese öffentliche Vorschau unterstützt Entwickler dabei, über einen WebSocket von Azure Communication Services auf Echtzeit-Audiostreams zuzugreifen und Audioinhalte in den Anruf zurückzustreamen.

Echtzeitunterstützung bei Anrufen

Nutzen von KI-Konversationslösungen: Entwickeln Sie anspruchsvolle virtuelle Kundensupport-Agents, die mit Kunden in Echtzeit interagieren und sofortige Antworten und Lösungen bereitstellen können.
Personalisierte Kundenerfahrungen: Durch die Nutzung von Echtzeitdaten können Unternehmen personalisiertere und dynamischere Kundeninteraktionen in Echtzeit bieten, was zu einer erhöhten Zufriedenheit und Loyalität führt.
Reduzieren der Wartezeiten für Kunden: Durch die Verwendung bidirektionaler Audiostreams mit LLMs (Large Language Models) können Sie virtuelle Agents erstellen, die als erster Kontaktpunkt für Kunden dienen, wodurch die Wartezeit für einen menschlichen Agent reduziert wird.

Authentifizierung

Biometrische Authentifizierung: Verwenden Sie die Audiodatenströme, um eine Sprachauthentifizierung durchzuführen, indem Sie die Audiodaten aus dem Anruf mithilfe Ihres Spracherkennungstools oder ihrer Abgleichs-Engine überprüfen.

Beispielarchitektur, die veranschaulicht, wie bidirektionales Audio-Streaming für KI-Konversationsagents verwendet werden kann

Unterstützte Formate

Mixed

Enthält gemischte Audiodaten aller Anrufteilnehmer. Alle Audiodaten werden zu einem Datenstrom vereinfacht.

Nicht gemischt

Enthält Audiodaten pro Teilnehmer und Kanal. Es werden bis zu vier Kanäle für die vier dominantesten Sprecher zu jedem beliebigen Zeitpunkt des Anrufs unterstützt. Darüber hinaus erhalten Sie einen participantRawID-Wert, den Sie verwenden können, um den Sprecher zu ermitteln.

Weitere Informationen

Entwickler können die folgenden Informationen zu Audiodaten verwenden, die von Azure Communication Services gesendet werden, um die Audiopakete in hörbare Inhalte für ihre Anwendungen zu konvertieren.

Framerate: 50 Frames pro Sekunde
Paketstreamingrate: 20 ms
Datenpaketgröße: 640 Byte bei 16.000 Hz und 960 Byte bei 24.000 Hz
Audiometrik: 16-Bit-PCM (Mono) bei 16.000 Hz und 24.000 Hz
Bei den öffentlichen Zeichenfolgendaten handelt es sich um eine Base64-Zeichenfolge, die in ein Bytearray konvertiert werden muss, um eine unformatierte PCM-Datei zu erstellen.

Abrechnung

Weitere Informationen zur Abrechnung von Audio-Streaming finden Sie auf der Azure Communication Services-Preisseite. Die Preise finden Sie in der Anrufkategorie unter Audio-Streaming.

Nächste Schritte

Weitere Informationen finden Sie in der Schnellstartanleitung zum Audiostreaming.

Freigeben über