Uso de modelos de lenguaje

Completado

Las organizaciones y los desarrolladores pueden entrenar sus propios modelos de lenguaje desde cero, pero en la mayoría de los casos es más práctico usar un modelo de base existente y, opcionalmente, ajustarlo con datos de entrenamiento propios. Puede usar muchos orígenes de modelo.

En Microsoft Azure, puede encontrar modelos básicos en el servicio Azure OpenAI y en el catálogo de modelo. El catálogo de modelo es una fuente mantenida de modelos para científicos de datos y desarrolladores que usan Inteligencia artificial de Azure Studio y Azure Machine Learning. Esto ofrece la ventaja de los modelos de lenguaje de vanguardia, como la colección de modelos de transformador generativo preentrenado (GPT) previamente entrenados (en los que se basan ChatGPT y los propios servicios de IA generativa de Microsoft), así como el modelo DALL-E para la generación de imágenes. El uso de estos modelos desde el servicio Azure OpenAI significa que también se obtiene la ventaja de una plataforma en la nube segura y escalable de Azure en la que se hospedan los modelos.

Además de los modelos de Azure OpenAI, el catálogo de modelo incluye los de código abierto más recientes de Microsoft y varios asociados, entre los que se incluyen los siguientes:

  • OpenAI
  • HuggingFace
  • Mistral
  • Meta y otros.

Algunos de los modelos comunes de Azure OpenAI son:

  • GPT-3.5-Turbo, GPT-4 y GPT-4o: Modelos de lenguaje de conversación y mensajes.
  • GPT-4 Turbo con Vision: Modelo de lenguaje desarrollado por OpenAI que puede analizar imágenes y proporcionar respuestas textuales a preguntas sobre ellas. Incorpora tanto el procesamiento del lenguaje natural como la comprensión visual.
  • DALL-E: Un modelo de lenguaje que genera imágenes originales, variaciones de imágenes y puede editar imágenes.

Modelos de lenguaje grandes y pequeños

Hay muchos modelos de lenguaje disponibles que puede usar para impulsar aplicaciones de inteligencia artificial generativa. En general, los modelos de lenguaje se pueden agrupar en dos categorías: Modelos de lenguaje grande (LLM) y Modelos de lenguaje pequeño (SLM).

Modelos de lenguaje grandes (LLM) Modelos de lenguaje pequeño (SLM)
Los LLM se entrenan con grandes cantidades de texto que representa una amplia gama de temas generales, normalmente mediante la obtención de datos de Internet y otras publicaciones disponibles con carácter general. Los SLM se entrenan con conjuntos de datos más pequeños y de temas específicos
Cuando se entrena, los LLM tienen miles de millones (incluso billones) de parámetros (pesos que se pueden aplicar a inserciones vectoriales para calcular secuencias de token previstas). Normalmente, tienen menos parámetros que los LLM.
Pueden mostrar funcionalidades completas de generación de lenguaje en una amplia gama de contextos de conversación. Este vocabulario centrado hace que sean muy eficaces en temas de conversación específicos, pero menos efectivos en la generación de lenguaje más general.
Su gran tamaño puede afectar a su rendimiento y dificultar la implementación local en dispositivos y equipos. El tamaño menor de los SLM puede proporcionar más opciones para la implementación, incluida la implementación local en dispositivos y equipos locales; y hace que sean más rápidos y fáciles de ajustar.
El ajuste preciso del modelo con datos adicionales para personalizar su experiencia en el tema puede ser lento y costoso en términos de la potencia de proceso necesaria para realizar el entrenamiento adicional. El ajuste preciso puede ser potencialmente menos lento y costoso.