Déployer des modèles groupés à des fins d’inférence et de prédiction
Cet article décrit ce que Databricks recommande pour l’inférence de traitement par lots et de diffusion en continu.
Pour obtenir le service de modèle en temps réel sur Azure Databricks, consultez Model service avec Azure Databricks.
Utiliser ai_query pour l’inférence par lots
Important
Cette fonctionnalité est disponible en préversion publique.
Databricks recommande d’utiliser ai_query
avec Model Serve pour l’inférence par lots. ai_query
est une fonction Databricks SQL intégrée qui vous permet d’interroger des points de terminaison de service de modèle existants à l’aide de SQL. Il a été vérifié pour traiter de manière fiable et cohérente des jeux de données dans la plage de milliards de jetons. Pour plus d’informations sur cette fonction IA, consultez ai_query fonction .
Pour une expérimentation rapide, ai_query
vous pouvez utiliser des points de terminaison de paiement par jeton, car ces points de terminaison sont préconfigurés sur votre espace de travail.
Lorsque vous êtes prêt à exécuter l’inférence par lots sur des données volumineuses ou de production, Databricks recommande d’utiliser des points de terminaison de débit approvisionnés pour accélérer les performances. Consultez les API Provisioned throughput Foundation Model pour créer un point de terminaison de débit provisionné.
- Consultez Effectuer une inférence par lot à l’aide de ai_query.
- Pour commencer à utiliser l’inférence par lots avec des machines virtuelles LLMs sur des tables de catalogue Unity, consultez les exemples de notebooks dans l’inférence Batch à l’aide du débit provisionné des API Foundation Model.