Procedimientos recomendados de entrenamiento del modelo de voz
Nota:
La personalización del modelo de voz, incluido el entrenamiento de pronunciación, solo se admite en las cuentas de prueba de Azure de Video Indexer y en las cuentas de Resource Manager. No se admite en las cuentas clásicas. Para obtener instrucciones sobre cómo actualizar el tipo de cuenta sin costo alguno, consulte Actualización de la cuenta de Azure AI Video Indexer. Para obtener instrucciones sobre cómo usar la experiencia de lenguaje personalizado, consulte Personalización de un modelo de lenguaje.
A través de la integración de Video Indexer de Azure AI con los servicios de voz de Azure AI, se usa un modelo de lenguaje universal como modelo base que se entrena con datos propiedad de Microsoft y refleja el lenguaje hablado que se usa habitualmente. El modelo base está entrenado previamente con dialectos y fonética que representan varios dominios comunes. El modelo base funciona bien en la mayoría de los escenarios de reconocimiento de voz.
Sin embargo, a veces la transcripción del modelo base no controla con precisión algún contenido. En estas situaciones, se puede usar un modelo de voz personalizado para mejorar el reconocimiento de vocabulario o pronunciación específicos del dominio que es específico del contenido proporcionando datos de texto para entrenar el modelo. A través del proceso de creación y adaptación de modelos de personalización de voz, el contenido se puede transcribir correctamente. No hay ningún cargo adicional por el uso de la personalización de voz de Video Indexers.
¿Cuándo usar un modelo de voz personalizado?
Si el contenido contiene terminología específica del sector o al revisar los resultados de transcripción de Video Indexer, puede crear y entrenar un modelo de voz personalizado para reconocer los términos y mejorar la calidad de la transcripción. Puede que solo valga la pena crear un modelo personalizado si se espera que las palabras y nombres pertinentes aparezcan repetidamente en el contenido que planea indexar. El entrenamiento de un modelo a veces es un proceso iterativo y, después del entrenamiento inicial, los resultados podrían seguir usando mejoras y se beneficiarían del entrenamiento adicional, consulte la sección Mejora del modelo personalizado para obtener instrucciones.
Sin embargo, si observa algunas palabras o nombres transcritos incorrectamente en la transcripción, es posible que no se necesite un modelo de voz personalizado, especialmente si no se espera que las palabras o nombres se usen normalmente en el contenido que planea en la indexación en el futuro. Solo puede editar y corregir la transcripción en el sitio web de Video Indexer (consulte Visualización y actualización de transcripciones en el sitio web de Video Indexer de Azure AI) y no tiene que abordarla a través de un modelo de voz personalizado.
Para obtener una lista de los idiomas que admiten modelos personalizados y pronunciación, consulte las columnas Personalización y Pronunciación de la tabla de compatibilidad de lenguajes en Compatibilidad con lenguajes en Azure AI Video Indexer.
Entrenamiento de conjuntos de datos
Al indexar un vídeo, puede usar un modelo de voz personalizado para mejorar la transcripción. Los modelos se entrenan cargando con conjuntos de datos que pueden incluir datos de texto sin formato y datos de pronunciación.
El texto usado para probar y entrenar un modelo personalizado debe incluir ejemplos de un conjunto diverso de contenido y escenarios que desea que reconozca el modelo. Tenga en cuenta los siguientes factores al crear y entrenar los conjuntos de datos:
- Incluya texto que abarque los tipos de instrucciones verbales que realizan los usuarios cuando interactúan con el modelo. Por ejemplo, si el contenido está relacionado principalmente con un deporte, entrene el modelo con contenido que contenga terminología y materia relacionada con el deporte.
- Incluya todas las variantes de voz que desea que el modelo reconozca. Muchos factores pueden variar el habla, incluidos los acentos, los dialectos y la mezcla de idioma.
- Incluya solo los datos relevantes para el contenido que planea transcribir. La inclusión de otros datos puede dañar la calidad del reconocimiento en general.
Tipos de conjuntos de datos
Hay dos tipos de conjuntos de datos que puede usar para la personalización. Para determinar qué conjunto de datos se va a usar para solucionar los problemas, consulte la tabla siguiente:
Caso de uso | Tipo de datos |
---|---|
Mejorar la precisión del reconocimiento en el vocabulario y la gramática específicos del sector, como la terminología médica o la jerga de TI. | Texto sin formato |
Definir el formato fonético y mostrado de una palabra o término que tenga una pronunciación no estándar, como nombres de producto o acrónimos | Datos de pronunciación |
Datos de texto sin formato para entrenamiento
Un conjunto de datos que incluye oraciones de texto sin formato de texto relacionado se puede usar para mejorar el reconocimiento de palabras y frases específicas del dominio. Las frases de texto relacionado pueden reducir los errores de sustitución debidos al reconocimiento erróneo de palabras comunes y palabras específicas del dominio, ya que las muestra en contexto. Las palabras específicas del dominio pueden ser palabras poco frecuentes o compuestas, pero su pronunciación debe ser fácil de reconocer.
Procedimientos recomendados para conjuntos de datos de texto sin formato
- Proporcione oraciones relacionadas con el dominio en un único archivo de texto. En lugar de usar oraciones completas, puede cargar una lista de palabras. Sin embargo, aunque esto los agrega al vocabulario, no enseña al sistema cómo se usan normalmente las palabras. Al proporcionar expresiones completas o parciales (oraciones o frases que es probable que digan los usuarios), el modelo de lenguaje puede aprender las palabras nuevas y cómo se usan. El modelo de lenguaje personalizado es bueno no solo para agregar palabras nuevas al sistema, sino también para ajustar la probabilidad de palabras conocidas para la aplicación. Al proporcionar expresiones completas se ayuda al sistema a aprender mejor.
- Use datos de texto que están cerca de las expresiones habladas esperadas. Las expresiones no tienen que ser frases completas ni gramaticalmente correctas, pero deben reflejar con precisión la entrada oral que se espera que reconozca el modelo.
- Intente tener cada frase o palabra clave en una línea independiente.
- Para aumentar el peso de un término, como los nombres de producto, agregue varias frases que incluyan el término.
- Para las frases comunes que se usan en el contenido, proporcionar muchos ejemplos es útil porque indica al sistema que escuche estos términos.
- Evite incluir símbolos poco comunes (~, # @ % &) como descartados. Las oraciones en las que aparecen también se descartan.
- Evite colocar entradas demasiado grandes, como cientos de miles de oraciones, ya que al hacerlo se diluye el efecto de aumentar.
Utilice esta tabla para asegurarse de que el archivo de datos de texto sin formato tiene el formato adecuado:
Propiedad | Value |
---|---|
Codificación de texto | BOM UTF-8 |
Número de expresiones por línea | 1 |
Tamaño de archivo máximo | 200 MB |
Intente seguir estas instrucciones en los archivos de texto sin formato:
- Evite repetir caracteres, palabras o grupos de palabras más de tres veces, como "sí sí sí", ya que el servicio podría quitar líneas con demasiadas repeticiones.
- No utilice caracteres especiales o caracteres UTF-8 por encima de U+00A1.
- Se rechazan los URI.
- En el caso de algunos idiomas (por ejemplo, japonés o coreano), importar grandes cantidades de datos de texto puede llevar mucho tiempo o agotar el tiempo de espera. Considere la posibilidad de dividir el conjunto de datos en varios archivos de texto con 20 000 líneas como máximo en cada uno.
Datos de pronunciación para entrenamiento
Puede agregar al modelo de voz personalizado un conjunto de datos de pronunciación personalizado para mejorar el reconocimiento de palabras, frases o nombres mal anunciados.
Los conjuntos de datos de pronunciación deben incluir la forma hablada de una palabra o frase, así como el formato mostrado reconocido. La forma hablada es la secuencia fonética escrita, como "Triple A". Se puede componer de letras, palabras, sílabas o una combinación de las tres. El formulario mostrado reconocido es cómo desea que aparezca la palabra o frase en la transcripción. En esta tabla se incluyen algunos ejemplos:
Formulario reconocido mostrado | Formato hablado |
---|---|
3CPO | CI-TRI-PI-OU |
CNTK | CI EN TI KEI |
AAA | Triple A |
Los conjuntos de datos de pronunciación se proporcionan en un único archivo de texto. Incluya la expresión hablada y una pronunciación personalizada para cada una. Cada fila del archivo debe comenzar con el formato reconocido, después un carácter de tabulación y, a continuación, la secuencia fonética delimitada por espacios.
3CPO three c p o
CNTK c n t k
IEEE i triple e
Tenga en cuenta lo siguiente al crear y entrenar conjuntos de datos de pronunciación:
No se recomienda usar archivos de pronunciación personalizados para modificar la pronunciación de palabras comunes.
Si hay algunas variaciones de cómo se transcribe incorrectamente una palabra o un nombre, considere la posibilidad de usar algunas o todas ellas al entrenar el conjunto de datos de pronunciación. Por ejemplo, si Robert se menciona cinco veces en el vídeo y se transcribe como Robort, Ropert y ladrones. Puede intentar incluir todas las variaciones en el archivo como en el ejemplo siguiente, pero tenga cuidado al entrenar con palabras reales como robos como si se menciona en el vídeo, se transcribe como Robert.
Robert Roport
Robert Ropert
Robert Robbers
El modelo de pronunciación no está pensado para direccionar acrónimos. Por ejemplo, si desea que Doctor se transcriba como Dr., esto no se puede lograr a través de un modelo de pronunciación.
Consulte la tabla siguiente para asegurarse de que los archivos del conjunto de datos de pronunciación tienen un formato válido y correcto.
Propiedad | Value |
---|---|
Codificación de texto | BOM UTF-8 (también se admite ANSI con el inglés) |
Número de pronunciaciones por línea | 1 |
Tamaño de archivo máximo | 1 MB (1 KB por cada nivel gratis) |
Mejora de los modelos personalizados
Entrenar un modelo de pronunciación puede ser un proceso iterativo, ya que puede obtener más información sobre la pronunciación del sujeto después del entrenamiento inicial y la evaluación de los resultados del modelo. Dado que los modelos existentes no se pueden editar ni modificar, el entrenamiento de un modelo requiere de forma iterativa la creación y carga de conjuntos de datos con información adicional, así como el entrenamiento de nuevos modelos personalizados en función de los nuevos conjuntos de datos. A continuación, volvería a indexar los archivos multimedia con el nuevo modelo de voz personalizado.
Ejemplo:
Supongamos que planea indexar contenido deportivo y prever problemas de precisión de transcripción con terminología deportiva específica, así como en los nombres de los jugadores y entrenadores. Antes de la indexación, ha creado un modelo de voz con un conjunto de datos de texto sin formato con contenido que contenga terminología deportiva relevante y un conjunto de datos de pronunciación con algunos de los nombres del jugador y los entrenadores. Puede indexar algunos vídeos con el modelo de voz personalizado y al revisar la transcripción generada, encontrar que, aunque la terminología se transcribe correctamente, muchos nombres no. Puede realizar los pasos siguientes para mejorar el rendimiento en el futuro:
Revise la transcripción y anote todos los nombres transcritos incorrectamente. Podrían caer en dos grupos:
- Nombres que no están en el archivo de pronunciación.
- Nombres en el archivo de pronunciación, pero todavía se transcriben incorrectamente.
Cree un nuevo archivo de conjunto de datos. Descargue el archivo de conjunto de datos de pronunciación o modifique el original guardado localmente. Para el grupo A, agregue los nuevos nombres al archivo con la forma en que se transcribieron incorrectamente (Michael Mikel). Para el grupo B, agregue líneas adicionales con cada línea que tenga el nombre correcto y un ejemplo único de cómo se transcribió incorrectamente. Por ejemplo:
Stephen Steven
Stephen Steafan
Stephen Steevan
Cargue este archivo como un nuevo archivo de conjunto de datos.
Cree un nuevo modelo de voz y agregue el conjunto de datos de texto sin formato original y el nuevo archivo de conjunto de datos de pronunciación.
Vuelva a indexar el vídeo con el nuevo modelo de voz.
Si es necesario, repita los pasos del 1 al 5 hasta que los resultados sean satisfactorios.