Partager via


Inférence par lots à l’aide du débit provisionné des API Foundation Model

Cet article fournit un exemple de notebook qui effectue une inférence par lots sur un point de terminaison de débit approvisionné à l’aide des API Foundation Model et des ai_query.

Spécifications

  • Un espace de travail situé dans une région prise en charge par les API Foundation Model.
  • Celui-ci peut avoir l'une des valeurs suivantes :
    • Calcul à usage unique avec une taille de calcul ou une plus i3.2xlarge grande exécution de Databricks Runtime 15.4 ML LTS ou version ultérieure avec au moins 2 workers.
    • SQL Warehouse moyen et plus grand.

Exécuter une inférence par lots

En règle générale, la configuration de l’inférence par lots implique 2 étapes :

  1. Création du point de terminaison à utiliser pour l’inférence par lots.
  2. Construction des requêtes par lots et envoi de ces requêtes au point de terminaison d’inférence par lot à l’aide ai_queryde .

L’exemple de notebook couvre ces étapes et illustre l’inférence par lots à l’aide du modèle Meta Llama 3.1 70B.

Inférence par lots avec un notebook de point de terminaison de débit provisionné

Obtenir le notebook

Ressources supplémentaires