Partager via


Qu’est-ce que la diarisation multicanal de la transcription de conversations ? (préversion)

Remarque

Cette fonctionnalité est actuellement disponible en préversion publique. Cette préversion est fournie sans contrat de niveau de service et n’est pas recommandée pour les charges de travail de production. Certaines fonctionnalités peuvent être limitées ou non prises en charge. Pour plus d’informations, consultez Conditions d’Utilisation Supplémentaires relatives aux Évaluations Microsoft Azure.

La diarisation multicanal de la transcription de conversations est une solution de reconnaissance vocale qui permet la transcription en temps réel ou asynchrone de toute réunion. Cette fonctionnalité combine la reconnaissance vocale, l’identification de l’orateur et l’attribution des phrases pour déterminer qui a dit quoi et quand durant une réunion.

Important

La diarisation multicanal de la transcription de conversation (préversion) sera mise hors service le 28 mars 2025. Pour plus d'informations sur la migration vers d'autres fonctionnalités de reconnaissance vocale, consultez Migrer hors de la diarisation multicanal de la transcription de conversation.

Migrer hors de la diarisation multicanal de la transcription de conversation

La diarisation multicanal de la transcription de conversation (préversion) sera mise hors service le 28 mars 2025.

Pour continuer à utiliser la reconnaissance vocale avec diarisation, choisissez plutôt les fonctionnalités suivantes :

Ces fonctionnalités de reconnaissance vocale ne prennent en charge que la diarisation pour l’audio à canal unique. L’audio multicanal que vous avez utilisé avec la diarisation multicanal de la transcription de conversation n’est pas pris en charge.

Fonctionnalités clés

Les fonctionnalités suivantes de transcription de conversation peuvent vous être utiles :

  • Horodatages : chaque énoncé d’orateur inclut un horodatage, ce qui vous permet de retrouver facilement le moment où une expression a été dite.
  • Transcriptions lisibles : une mise en forme et une ponctuation sont automatiquement ajoutées aux transcriptions pour que le texte corresponde exactement à ce qui a été dit.
  • Profils utilisateur : des profils utilisateur sont générés via la collecte d’échantillons de voix d’utilisateurs, et leur envoi au service de génération de signatures.
  • Identification de l’orateur : les orateurs sont identifiés à l’aide de profils utilisateur. Un identificateur d’orateur est affecté à chacun d’entre eux.
  • Diarisation de plusieurs orateurs : déterminez qui a dit quoi en synthétisant le flux audio avec chaque identificateur d’orateur.
  • Transcription en temps réel : Fournit des transcriptions en direct de qui dit quoi et quand pendant la réunion.
  • Transcription asynchrone : fournissez des transcriptions d’une plus grande justesse à l’aide d’un flux audio multicanal.

Notes

Bien que la transcription de conversation ne limite pas le nombre d’orateurs dans la salle, elle est optimisée pour 2 à 10 orateurs par session.

Cas d’utilisation

Pour inclure tout le monde dans les réunions, par exemple les participants sourds et malentendants, il est important de disposer d’une transcription en temps réel. La transcription de conversation en temps réel prend en compte l’audio et détermine qui dit quoi, ce qui permet ainsi à tous les participants d’une réunion de suivre la transcription et de participer sans délai à la réunion.

Les participants à la réunion peuvent se concentrer sur celle-ci, et laisser la fonctionnalité de transcription de conversation gérer la prise de notes. Les participants peuvent participer activement à la réunion et suivre rapidement les étapes suivantes grâce à la transcription au lieu de prendre des notes et éventuellement de manquer des éléments pendant la réunion.

Fonctionnement

Le diagramme suivant montre une vue d’ensemble de la fonctionnalité.

Diagramme montrant les relations entre les différents éléments de la solution de transcription de conversation.

Entrées attendues

La transcription de conversation utilise deux types d’entrée :

  • Flux audio multicanal : pour plus d’informations sur les spécifications et la conception, consultez les recommandations sur le réseau de microphones.
  • Échantillons de voix d’utilisateurs : la transcription de conversation a besoin de profils utilisateur avant la conversation pour pouvoir effectuer l’identification de l’orateur. Collectez les enregistrements audio de chaque utilisateur, puis envoyez-les au service de génération de signatures pour valider le contenu audio et générer des profils utilisateur.

Les exemples de voix d’utilisateur pour les signatures vocales sont obligatoires pour identifier les orateurs. Les orateurs qui n’ont pas d’échantillons de voix sont reconnus comme étant non identifiés. Les orateurs non identifiés peuvent toujours être différenciés quand la propriété DifferentiateGuestSpeakers est activée (consultez l’exemple suivant). La sortie de la transcription indique alors que les orateurs sont, par exemple, Guest_0 et Guest_1, sans les reconnaître comme des noms d’orateurs spécifiques préenregistrés.

config.SetProperty("DifferentiateGuestSpeakers", "true");

Temps réel ou asynchrone

Les sections suivantes fournissent plus de détails sur les modes de transcription que vous pouvez choisir.

Temps réel

Les données audio sont traitées en temps réel pour retourner l’identificateur de l’orateur et la transcription de ses propos. Sélectionnez ce mode si votre solution de transcription doit fournir aux participants à la réunion une vue de la transcription en direct de leur réunion en cours. Par exemple, la création d’une application permettant de rendre les réunions plus accessibles aux participants sourds ou malentendants est un cas d’usage idéal pour la transcription en temps réel.

Asynchrone

Les données audio sont traitées par lots pour retourner l’identificateur de l’orateur et la transcription de ses propos. Sélectionnez ce mode si votre solution de transcription doit être d’une plus grande justesse, sans affichage de la transcription en temps réel. Par exemple, si vous souhaitez créer une application pour permettre aux participants à des réunions de rattraper facilement les réunions manquées, utilisez le mode de transcription asynchrone pour obtenir des résultats de transcription haute précision.

Temps réel plus asynchrone

Les données audio sont traitées en temps réel pour retourner l’identificateur de l’orateur et la transcription de ses propos. Une requête est créée pour obtenir une transcription d’une grande justesse via un traitement asynchrone. Sélectionnez ce mode si votre application a besoin d’une transcription en temps réel, et si elle nécessite également l’utilisation d’une transcription d’une plus grande exactitude après la réunion.

Prise en charge de la région et de la langue

La transcription de conversation prend actuellement en charge toutes les langues de reconnaissance vocale dans les régions suivantes : centralus, eastasia, eastus et westeurope.