Freigeben über


Erste Schritte beim Abfragen von LLMs in Databricks

In diesem Artikel werden die ersten Schritte bei der Verwendung von Foundation Model-APIs beschrieben, um LLMs in Databricks bereitzustellen und abzufragen.

Die einfachste Möglichkeit, um mit der Bereitstellung von LLM-Modellen und deren Abfrage in Databricks zu beginnen, ist die Verwendung von Foundation Model-APIs auf Pay-per-Token-Basis. Die APIs bieten Zugriff auf beliebte Foundation Model-Implementierungen über Pay-per-Token-Endpunkte, die automatisch auf der Benutzeroberfläche des Databricks-Arbeitsbereichs zur Verfügung stehen. Weitere Informationen finden Sie unter Unterstützte Modelle für Pay-per-Token.

Sie können Modelle mit tokenbasierter Bezahlung auch mithilfe des KI-Playground testen und für Chats verwenden. Siehe Chatten mit LLMs und Prototypen-GenAI-Apps im KI-Playground.

Für Workloads in der Produktion, insbesondere solche mit einem fein abgestimmten Modell oder bei denen Leistungsgarantien erforderlich sind, empfiehlt Databricks die Verwendung von Foundation Model APIs auf einem bereitgestellten Durchsatzendpunkt.

Anforderungen

Wichtig

Als bewährte Sicherheitsmethode für Produktionsszenarien empfiehlt Databricks, Computer-zu-Computer-OAuth-Token für die Authentifizierung während der Produktion zu verwenden.

Für die Test- und Entwicklungsphase empfiehlt Databricks die Verwendung eines persönlichen Zugriffstokens, das Dienstprinzipalen anstelle von Arbeitsbereichsbenutzern gehört. Informationen zum Erstellen von Token für Dienstprinzipale finden Sie unter Verwalten von Token für einen Dienstprinzipal.

Erste Schritte mit Foundation Model-APIs

Das folgende Beispiel soll in einem Databricks-Notebook ausgeführt werden. Das Codebeispiel fragt das Meta Llama 3.1 405B Instruct-Modell ab, das am Pay-per-Token-Endpunkt databricks-meta-llama-3-1-405b-instruct bereitgestellt wird.

In diesem Beispiel verwenden Sie den OpenAI-Client, um das Modell abzufragen, indem Sie das Feld model mit dem Namen des Modellbereitstellungsendpunkts ausfüllen, der das Modell hostet, das Sie abfragen möchten. Verwenden Sie Ihr persönliches Zugriffstoken, um DATABRICKS_TOKEN und die Databricks-Arbeitsbereichsinstanz zu befüllen, um den OpenAI-Client mit Databricks zu verbinden.

from openai import OpenAI
import os

DATABRICKS_TOKEN = os.environ.get("DATABRICKS_TOKEN")

client = OpenAI(
  api_key=DATABRICKS_TOKEN, # your personal access token
  base_url='https://<workspace_id>.databricks.com/serving-endpoints', # your Databricks workspace instance
)

chat_completion = client.chat.completions.create(
  messages=[
    {
      "role": "system",
      "content": "You are an AI assistant",
    },
    {
      "role": "user",
      "content": "What is a mixture of experts model?",
    }
  ],
  model="databricks-meta-llama-3-1-405b-instruct",
  max_tokens=256
)

print(chat_completion.choices[0].message.content)

Hinweis

Wenn die folgende Meldung auftritt ImportError: cannot import name 'OpenAI' from 'openai' aktualisieren Sie Ihre openai-Version mithilfe von !pip install -U openai. Führen Sie nach der Installation des Pakets dbutils.library.restartPython() aus.

Erwartete Ausgabe:


{
  "id": "xxxxxxxxxxxxx",
  "object": "chat.completion",
  "created": "xxxxxxxxx",
  "model": "databricks-meta-llama-3-1-405b-instruct",
  "choices": [
    {
      "index": 0,
      "message":
        {
          "role": "assistant",
          "content": "A Mixture of Experts (MoE) model is a machine learning technique that combines the predictions of multiple expert models to improve overall performance. Each expert model specializes in a specific subset of the data, and the MoE model uses a gating network to determine which expert to use for a given input."
        },
      "finish_reason": "stop"
    }
  ],
  "usage":
    {
      "prompt_tokens": 123,
      "completion_tokens": 23,
      "total_tokens": 146
    }
}

Nächste Schritte