Inférence par lots à l’aide du débit provisionné des API Foundation Model
Cet article fournit un exemple de notebook qui effectue une inférence par lots sur un point de terminaison de débit approvisionné à l’aide des API Foundation Model et des ai_query.
Spécifications
- Un espace de travail situé dans une région prise en charge par les API Foundation Model.
- Celui-ci peut avoir l'une des valeurs suivantes :
- Calcul à usage unique avec une taille de calcul ou une plus
i3.2xlarge
grande exécution de Databricks Runtime 15.4 ML LTS ou version ultérieure avec au moins 2 workers. - SQL Warehouse moyen et plus grand.
- Calcul à usage unique avec une taille de calcul ou une plus
Exécuter une inférence par lots
En règle générale, la configuration de l’inférence par lots implique 2 étapes :
- Création du point de terminaison à utiliser pour l’inférence par lots.
- Construction des requêtes par lots et envoi de ces requêtes au point de terminaison d’inférence par lot à l’aide
ai_query
de .
L’exemple de notebook couvre ces étapes et illustre l’inférence par lots à l’aide du modèle Meta Llama 3.1 70B.