Partager via


Vue d’ensemble de la diffusion audio – Abonnement audio

Important

Les fonctionnalités décrites dans cet article sont actuellement en préversion publique. Cette préversion est fournie sans contrat de niveau de service et n’est pas recommandée pour les charges de travail de production. Certaines fonctionnalités peuvent être limitées ou non prises en charge. Pour plus d’informations, consultez Conditions d’Utilisation Supplémentaires relatives aux Évaluations Microsoft Azure.

Azure Communication Services offre aux développeurs des fonctionnalités de diffusion audio qui leur permettent d’accéder en temps réel à des flux audio pour capturer, analyser et traiter du contenu audio pendant des appels actifs. Dans le monde d’aujourd’hui, la consommation de flux audio et vidéo en direct est très répandue ; ce contenu peut prendre la forme de réunions ou de conférences en ligne, d’assistance à la clientèle, etc. Avec l’accès à la diffusion audio, les développeurs peuvent désormais créer des applications serveur pour capturer et analyser en temps réel les flux audio de chacun des participants à l’appel. Les développeurs peuvent également combiner la diffusion audio avec d’autres actions d’automatisation des appels ou utiliser leurs propres modèles IA pour analyser les flux audio. Les cas d’usage incluent le traitement en langage naturel pour l’analyse des conversations, ou fournir des insights et des suggestions en temps réel aux agents pendant qu’ils sont en interaction active avec des utilisateurs finaux.

Cette préversion publique permet aux développeurs d’accéder à des flux audio en temps réel via un WebSocket pour analyser le contenu audio de l’appel dans des formats mixés et non mixés.

Cas d’utilisation courants

Les flux audio peuvent être utilisés de plusieurs façons. Voici quelques exemples de la façon dont les développeurs peuvent utiliser les flux audio dans leurs applications :

Assistance téléphonique en temps réel

Suggestions améliorées par IA - Utilisez des flux audio en temps réel d’interactions actives entre les agents et les clients pour évaluer l’intention de l’appel ainsi que la façon dont les agents peuvent offrir une meilleure expérience à leurs clients via des suggestions actives en utilisant votre propre modèle IA pour analyser l’appel.

Authentification

Authentification biométrique – Utiliser des flux audio pour effectuer l’authentification vocale, en exécutant l’audio de l’appel via votre moteur/outil de reconnaissance/correspondance vocale.

Exemple d’architecture pour l’abonnement aux flux audio d’un appel en cours – scénario avec un conseiller

Capture d’écran du diagramme d’architecture pour la diffusion audio.

Formats pris en charge

Format mixte

Contient le contenu audio mixte de tous les participants à l’appel. Tout l’audio est aplati en un seul flux.

Séparé

Contient du contenu audio par participant et par canal, avec prise en charge de quatre canaux au maximum pour quatre orateurs dominants à n’importe quel moment d’un appel. Vous obtiendrez également un participantRawID que vous pouvez utiliser pour déterminer l’orateur.

Informations supplémentaires

Le tableau ci-dessous décrit les informations qui vont aider les développeurs à convertir les paquets audio en contenu audible qui peut être utilisé par leurs applications.

  • Fréquence d’images : 50 images par seconde
  • Débit d’envoi en streaming des paquets : 20 ms
  • Paquet de données : 64 Ko
  • Métrique audio : PCM mono 16 bits à 16 000 Hz
  • Les données de chaîne publiques sont une chaîne au format base64 qui doit être convertie en tableau d’octets pour créer un fichier PCM brut.

Étapes suivantes

Pour plus d’informations, consultez le Guide de démarrage rapide sur la diffusion audio.