Inférence par lots à l’aide du débit provisionné des API Foundation Model

Article
10/31/2024

Cet article fournit un exemple de notebook qui effectue une inférence par lots sur un point de terminaison de débit approvisionné à l’aide des API Foundation Model et des ai_query.

Spécifications

Un espace de travail situé dans une région prise en charge par les API Foundation Model.
Celui-ci peut avoir l'une des valeurs suivantes :
- Calcul à usage unique avec une taille de calcul ou une plus i3.2xlarge grande exécution de Databricks Runtime 15.4 ML LTS ou version ultérieure avec au moins 2 workers.
- SQL Warehouse moyen et plus grand.

Exécuter une inférence par lots

En règle générale, la configuration de l’inférence par lots implique 2 étapes :

Création du point de terminaison à utiliser pour l’inférence par lots.
Construction des requêtes par lots et envoi de ces requêtes au point de terminaison d’inférence par lot à l’aide ai_queryde .

L’exemple de notebook couvre ces étapes et illustre l’inférence par lots à l’aide du modèle Meta Llama 3.1 70B.

Inférence par lots avec un notebook de point de terminaison de débit provisionné

Obtenir le notebook

Ressources supplémentaires

Commencer à interroger les LLM sur Databricks

Partager via

Inférence par lots à l’aide du débit provisionné des API Foundation Model

Spécifications

Exécuter une inférence par lots

Inférence par lots avec un notebook de point de terminaison de débit provisionné

Ressources supplémentaires

Commentaires

Ressources supplémentaires