Uso de GPU sin servidor en Azure Container Apps (versión preliminar)
Azure Container Apps proporciona acceso a GPU a petición sin tener que administrar la infraestructura subyacente. Como característica sin servidor, solo se paga por GPU en uso. Cuando se habilita, el número de GPU usadas para la aplicación aumenta y cae para satisfacer las demandas de carga de la aplicación. Las GPU sin servidor permiten ejecutar sin problemas las cargas de trabajo con escalado automático, arranque en frío optimizado, facturación por segundo con reducción vertical a cero cuando no están en uso y reducción de la sobrecarga operativa.
Las GPU sin servidor solo se admiten para perfiles de carga de trabajo de consumo. Esta característica no es compatible con los entornos de solo consumo.
Nota:
El acceso a las GPU solo está disponible después de solicitar cuotas de GPU. Puede enviar la solicitud de cuota de GPU a través de un caso de soporte técnico al cliente.
Ventajas
Las GPU sin servidor aceleran el desarrollo de la IA al permitirle centrarse en su código de IA principal y menos en la administración de la infraestructura cuando utiliza GPU. Esta característica proporciona una opción intermedia entre las API sin servidor del catálogo de modelos de Azure AI y los modelos de hospedaje en procesos administrados.
La compatibilidad con la GPU sin servidor de Container Apps proporciona una gobernanza de datos completa, ya que sus datos nunca salen de los límites de su contenedor, al tiempo que proporciona una plataforma administrada y sin servidor desde la que compilar sus aplicaciones.
Al usar GPU sin servidor en Container Apps, las aplicaciones obtienen:
GPU de escalado a cero: compatibilidad con el escalado automático sin servidor de GPU NVIDIA A100 y NVIDIA T4.
Facturación por segundo: pague solo por el proceso de GPU que use.
Gobernanza de datos integrada: los datos nunca dejan el límite del contenedor.
Opciones de proceso flexibles: puede elegir entre los tipos de GPU NVIDIA A100 o T4.
Nivel intermedio para el desarrollo de IA: traiga su propio modelo en una plataforma de proceso administrada y sin servidor.
Escenarios frecuentes
Los siguientes escenarios, aunque no son exhaustivos, describen casos de uso comunes para las GPU sin servidor.
Inferencia por lotes y en tiempo real: uso de modelos de código abierto personalizados con tiempos de inicio rápidos, escalado automático y un modelo de facturación por segundo. Las GPU sin servidor son ideales para aplicaciones dinámicas. Solo paga por el proceso que usa y sus aplicaciones se escalan automáticamente para satisfacer la demanda.
Escenarios de aprendizaje automático: acelera considerablemente las aplicaciones que implementan modelos de IA generativos personalizados, aprendizaje profundo, redes neuronales o análisis de datos a gran escala.
Informática de alto rendimiento (HPC):las aplicaciones que requieren cálculos y simulaciones complejas, como la informática científica, el modelado financiero o la previsión meteorológica usan GPU como recursos para altas demandas computacionales.
Representación y visualización: las aplicaciones que implican la representación 3D, el procesamiento de imágenes o la transcodificación de vídeo suelen usar GPU para acelerar el proceso de representación y habilitar la visualización en tiempo real.
Análisis de macrodatos: las GPU pueden acelerar el procesamiento y el análisis de datos entre conjuntos de datos masivos.
Consideraciones
Tenga en cuenta los siguientes elementos a medida que usa GPU sin servidor:
Versión de CUDA: las GPU sin servidor admiten la versión más reciente de CUDA
Limitaciones de compatibilidad:
- Solo un contenedor de una aplicación puede usar la GPU a la vez.
- Varias aplicaciones pueden compartir el mismo perfil de carga de trabajo de GPU, pero cada una requiere su propia réplica.
- No se admiten réplicas de GPU multifactor y fraccionario.
- El primer contenedor de la aplicación obtiene acceso a la GPU.
Direcciones IP: las GPU de consumo usan una dirección IP por réplica al configurar la integración con su propia red virtual.
Solicitud de cuota de GPU sin servidor
El acceso a esta característica solo está disponible después de tener una cuota de GPU sin servidor. Puede enviar la solicitud de cuota de GPU a través de un caso de soporte técnico al cliente. Al abrir un caso de soporte para una solicitud de cuota de GPU, seleccione el tipo de incidencia "Técnica"
Nota:
Los clientes con contratos de empresa tienen habilitada de manera predeterminada una única cuota de GPU T4.
Regiones admitidas
Las GPU sin servidor están disponibles en versión preliminar en las regiones de Oeste de EE. UU. 3 y Este de Australia.
Uso de GPU sin servidor
Al crear una aplicación de contenedor a través de Azure Portal, puede configurar el contenedor para usar recursos de GPU.
En la pestaña Contenedor del proceso de creación, establezca la siguiente configuración:
En la sección Asignación de recursos de contenedor, active la casilla GPU.
En el tipo de GPU*, seleccione la opción NVIDIA A100 o NVIDIA T4.
Administración del perfil de carga de trabajo de GPU sin servidor
Las GPU sin servidor se ejecutan en perfiles de carga de trabajo de GPU de consumo. Puede administrar un perfil de carga de trabajo de GPU de consumo de la misma manera que cualquier otro perfil de carga de trabajo. Puede administrar el perfil de carga de trabajo mediante la CLI o Azure Portal.
Mejora del arranque en frío de GPU
Para mejorar el arranque en frío en los contenedores habilitados para GPU, habilite el streaming de artefactos en Azure Container Registry.
Nota:
Para usar el streaming de artefactos, las imágenes de contenedor deben hospedarse en Azure Container Registry.
Siga estos pasos para habilitar el streaming de imágenes:
Abra Azure Container Registry en Azure Portal.
Busque Repositorios y seleccione Repositorios.
Seleccione el nombre del repositorio.
En la ventana Repositorio, seleccione Iniciar streaming de artefactos.
Seleccione la etiqueta de imagen que desea hacer streaming.
En la ventana que aparece, seleccione Crear artefacto de streaming.
Enviar comentarios
Envíe la incidencia al repositorio GitHub de Azure Container Apps.