Freigeben über


Referenz: Chatabschluss | Azure Machine Learning

Erstellt eine Vervollständigung für den angegebenen Prompt und die angegebenen Parameter.

POST /completions?api-version=2024-04-01-preview
Name Geben Sie in Erforderlich Type BESCHREIBUNG
api-version Abfrage True Zeichenfolge Die Version der API im Format "JJJJ-MM-TT" oder "JJJJ-MM-TT-Vorschau"

Anforderungsheader

Name Erforderlich Type Beschreibung
Zusätzliche Parameter Zeichenfolge Das Verhalten der API, wenn zusätzliche Parameter in der Nutzlast angegeben werden. Durch die Verwendung von pass-through wird die API zum Übergeben des Parameters an das zugrunde liegende Modell angeregt. Verwenden Sie diesen Wert, wenn Sie Parameter übergeben möchten, die Ihnen bekannt sind, damit das zugrunde liegende Modell unterstützt werden kann. Die Verwendung von ignore führt dazu, dass die API alle nicht unterstützten Parameter ablegt. Verwenden Sie diesen Wert, wenn Sie dieselbe Nutzlast in verschiedenen Modellen verwenden müssen, aber einer der zusätzlichen Parameter kann dazu führen, dass ein Modell ausfällt, wenn es nicht unterstützt wird. Die Verwendung von error sorgt dafür, dass die API alle zusätzlichen Parameter in der Nutzlast ablehnt. Es können nur Parameter angegeben werden, die in dieser API festgelegt sind, ansonsten wird ein 400-Fehler zurückgegeben.
azureml-model-deployment Zeichenfolge Name der Bereitstellung, an die Sie die Anforderung weiterleiten möchten Unterstützt für Endpunkte, die mehrere Bereitstellungen unterstützen

Anforderungstext

Name Erforderlich Type Beschreibung
prompt True Die Prompts zum Generieren von Vervollständigungen, die als Zeichenfolge, Array von Zeichenfolgen, Array von Token oder Array von Tokenarrays codiert werden Beachten Sie, dass <\|endoftext\|> das Dokumententrennzeichen enthält, das das Modell während des Trainings sieht. Wenn kein Prompt angegeben wird, generiert das Modell daher so, als würde es sich am Anfang eines neuen Dokuments befinden.
frequency_penalty Zahl Positive Werte benachteiligen neue Token auf der Grundlage ihrer bisherigen Häufigkeit im Text, wodurch die Wahrscheinlichkeit, dass das Modell dieselbe Zeile wortwörtlich wiederholt, sinkt.
max_tokens integer Die maximale Anzahl von Token, die in der Vervollständigung generiert werden können. Die Tokenanzahl Ihres Prompts plus max_tokens darf die Kontextlänge des Modells nicht überschreiten.
presence_penalty Zahl Positive Werte benachteiligen neue Token, je nachdem, ob sie bereits im Text vorkommen, und erhöhen so die Wahrscheinlichkeit, dass das Modell über neue Themen spricht.
seed integer Wenn dies angeben ist, bemüht sich das Modell nach besten Kräften, eine deterministische Auswahl der Token zu treffen, sodass wiederholte Anforderungen mit demselben seed und denselben Parametern dasselbe Ergebnis liefern sollten.

Der Determinismus ist nicht garantiert, und Sie sollten sich auf den Antwortparameter system_fingerprint beziehen, um Änderungen im Back-End zu überwachen.
stop Sequenzen, bei denen die API aufhört, weitere Token zu generieren. Die Beendigungssequenz ist nicht im zurückgegebenen Text enthalten.
Datenstrom boolean Gibt an, ob der Teilfortschritt zurückgestreamt werden soll. Wenn dieser Parameter festgelegt wird, werden Token als vom Server gesendete Ereignisse (nur Daten) übermittelt, sobald sie verfügbar sind, wobei der Stream durch die Nachricht data: [DONE] beendet wird.
Temperatur Zahl Die zu verwendende Temperatur für die Stichprobenentnahme zwischen 0 und 2. Durch höhere Werte wie 0,8 wird die Ausgabe zufälliger, während sie durch niedrigere Werte wie 0,2 fokussierter und deterministischer wird.

Im Allgemeinen wird empfohlen, temperature oder top_p zu ändern, aber nicht beides.
top_p Zahl Eine Alternative zur Stichprobenentnahme mit Temperatur, die sogenannte Kernstichprobenentnahme (Nucleus Sampling), bei dem das Modell die Ergebnisse der Token mit der Wahrscheinlichkeitsmasse „top_p“ berücksichtigt. Daher bedeutet 0,1, dass nur die Token berücksichtigt werden, die die oberen 10 % der Wahrscheinlichkeitsmasse umfassen.

Im Allgemeinen wird empfohlen, top_p oder temperature zu ändern, aber nicht beides.

Antworten

Name Typ BESCHREIBUNG
200 – OK CreateCompletionResponse OK
401 – Nicht autorisiert UnauthorizedError Zugriffstoken fehlt oder ist ungültig

Kopfzeile

x-ms-error-code: string
404 Nicht gefunden NotFoundError Modalität wird vom Modell nicht unterstützt. Sehen Sie in der Dokumentation des Modells nach, welche Routen verfügbar sind.

Kopfzeile

x-ms-error-code: string
422: Entität kann nicht verarbeitet werden UnprocessableContentError Die Anforderung enthält nicht verarbeitbaren Inhalt.

Kopfzeile

x-ms-error-code: string
429 – Zu viele Anforderungen TooManyRequestsError Sie haben das zugewiesene Ratenlimit erreicht, und Ihre Anforderung muss beschleunigt werden.

Kopfzeile

x-ms-error-code: string
Andere Statuscodes ContentFilterError Ungültige Anforderung

Kopfzeile

x-ms-error-code: string

Sicherheit

Autorisierung

Das Token mit dem Bearer:-Präfix, z. B. Bearer abcde12345

Typ: apiKey
In: Header

AADToken

Azure Active Directory OAuth2-Authentifizierung

Typ: oauth2
Flow: Anwendung
Token-URL: https://login.microsoftonline.com/common/oauth2/v2.0/token

Beispiele

Erstellt eine Vervollständigung für den angegebenen Prompt und die angegebenen Parameter

Beispiel-Anfrage

POST /completions?api-version=2024-04-01-preview

{
  "prompt": "This is a very good text",
  "frequency_penalty": 0,
  "presence_penalty": 0,
  "max_tokens": 256,
  "seed": 42,
  "stop": "<|endoftext|>",
  "stream": false,
  "temperature": 0,
  "top_p": 1
}

Beispiel für eine Antwort

Statuscode: 200

{
  "id": "1234567890",
  "model": "llama2-7b",
  "choices": [
    {
      "index": 0,
      "finish_reason": "stop",
      "text": ", indeed it is a good one."
    }
  ],
  "created": 1234567890,
  "object": "text_completion",
  "usage": {
    "prompt_tokens": 15,
    "completion_tokens": 8,
    "total_tokens": 23
  }
}

Definitionen

Name Beschreibung
Optionen Eine Liste der Auswahlmöglichkeiten für den Chatabschluss.
CompletionFinishReason Der Grund, warum das Modell das Generieren von Token beendet hat. Dies ist stop, wenn das Modell einen natürlichen Stopppunkt oder eine angegebene Stoppsequenz erreicht hat, oder length, wenn die in der Anforderung angegebene maximale Anzahl von Token erreicht wurde, oder content_filter, wenn Inhalte aufgrund eines Flags in unseren Inhaltsfiltern ausgelassen wurden.
CompletionUsage Nutzungsstatistiken für die Vervollständigungsanforderung
ContentFilterError Der API-Aufruf schlägt fehl, wenn der Prompt einen Inhaltsfilter wie konfiguriert auslöst. Ändern Sie die Äußerung, und versuchen Sie es erneut.
CreateCompletionRequest
CreateCompletionResponse Stellt eine Vervollständigungsantwort der API dar.
Detail
TextCompletionObject Der Objekttyp, der immer „text_completion“ lautet
UnprocessableContentError

Optionen

Eine Liste der Auswahlmöglichkeiten für den Chatabschluss.

Name Typ Beschreibung
finish_reason CompletionFinishReason Der Grund, warum das Modell das Generieren von Token beendet hat. Dies ist stop, wenn das Modell einen natürlichen Stopppunkt oder eine angegebene Stoppsequenz erreicht hat, oder length, wenn die in der Anforderung angegebene maximale Anzahl von Token erreicht wurde, oder content_filter, wenn Inhalte aufgrund eines Flags in unseren Inhaltsfiltern ausgelassen wurden, oder tool_calls, wenn das Modell ein Tool aufgerufen hat.
Index integer Der Index der Auswahl in der Liste der Auswahlmöglichkeiten
Text Zeichenfolge Der generierte Text.

CompletionFinishReason

Der Grund, warum das Modell das Generieren von Token beendet hat. Dies ist stop, wenn das Modell einen natürlichen Stopppunkt oder eine angegebene Stoppsequenz erreicht hat, oder length, wenn die in der Anforderung angegebene maximale Anzahl von Token erreicht wurde, oder content_filter, wenn Inhalte aufgrund eines Flags in unseren Inhaltsfiltern ausgelassen wurden.

Name Typ Beschreibung
content_filter Zeichenfolge
length Zeichenfolge
stop Zeichenfolge

CompletionUsage

Nutzungsstatistiken für die Vervollständigungsanforderung

Name Typ Beschreibung
completion_tokens integer Anzahl der Token in der generierten Vervollständigung
prompt_tokens integer Anzahl der Token im Prompt.
total_tokens integer Die Gesamtzahl der in der Anforderung verwendeten Token (Prompt + Vervollständigung).

ContentFilterError

Der API-Aufruf schlägt fehl, wenn der Prompt einen Inhaltsfilter wie konfiguriert auslöst. Ändern Sie die Äußerung, und versuchen Sie es erneut.

Name Typ BESCHREIBUNG
code Zeichenfolge Der Fehlercode.
error Zeichenfolge Die Fehlerbeschreibung.
message Zeichenfolge Die Fehlermeldung.
param Zeichenfolge Der Parameter, der den Inhaltsfilter ausgelöst hat.
status integer Der HTTP-Statuscode.

CreateCompletionRequest

Name Type Standardwert Beschreibung
frequency_penalty Zahl 0 Positive Werte benachteiligen neue Token auf der Grundlage ihrer bisherigen Häufigkeit im Text, wodurch die Wahrscheinlichkeit, dass das Modell dieselbe Zeile wortwörtlich wiederholt, sinkt.
max_tokens integer 256 Die maximale Anzahl von Token, die in der Vervollständigung generiert werden können. Die Tokenanzahl Ihres Prompts plus max_tokens darf die Kontextlänge des Modells nicht überschreiten.
presence_penalty Zahl 0 Positive Werte benachteiligen neue Token, je nachdem, ob sie bereits im Text vorkommen, und erhöhen so die Wahrscheinlichkeit, dass das Modell über neue Themen spricht.
prompt <\|endoftext\|> Die Prompts zum Generieren von Vervollständigungen, die als Zeichenfolge, Array von Zeichenfolgen, Array von Token oder Array von Tokenarrays codiert werden Beachten Sie, dass <\|endoftext\|> das Dokumententrennzeichen enthält, das das Modell während des Trainings sieht. Wenn kein Prompt angegeben wird, generiert das Modell daher so, als würde es sich am Anfang eines neuen Dokuments befinden.
seed integer Wenn Sie dies angeben, bemüht sich unser System nach besten Kräften, eine deterministische Auswahl zu treffen, sodass wiederholte Anforderungen mit demselben seed und denselben Parametern dasselbe Ergebnis liefern sollten.

Der Determinismus ist nicht garantiert, und Sie sollten sich auf den Antwortparameter system_fingerprint beziehen, um Änderungen im Back-End zu überwachen.
stop Sequenzen, bei denen die API aufhört, weitere Token zu generieren. Die Beendigungssequenz ist nicht im zurückgegebenen Text enthalten.
Datenstrom boolean False Gibt an, ob der Teilfortschritt zurückgestreamt werden soll. Wenn dieser Parameter festgelegt wird, werden Token als vom Server gesendete Ereignisse (nur Daten) übermittelt, sobald sie verfügbar sind, wobei der Stream durch die Nachricht data: [DONE] beendet wird.
Temperatur number 1 Die zu verwendende Temperatur für die Stichprobenentnahme zwischen 0 und 2. Durch höhere Werte wie 0,8 wird die Ausgabe zufälliger, während sie durch niedrigere Werte wie 0,2 fokussierter und deterministischer wird.

Wir empfehlen im Allgemeinen, dies oder top_p zu ändern, aber nicht beides.
top_p number 1 Eine Alternative zur Stichprobenentnahme mit Temperatur, die sogenannte Kernstichprobenentnahme (Nucleus Sampling), bei dem das Modell die Ergebnisse der Token mit der Wahrscheinlichkeitsmasse „top_p“ berücksichtigt. Daher bedeutet 0,1, dass nur die Token berücksichtigt werden, die die oberen 10 % der Wahrscheinlichkeitsmasse umfassen.

Wir empfehlen im Allgemeinen, dies oder temperature zu ändern, aber nicht beides.

CreateCompletionResponse

Stellt eine Vervollständigungsantwort der API dar. Hinweis: Sowohl die gestreamten als auch nicht gestreamten Antwortobjekte verwenden dieselbe Form (im Gegensatz zum Chatendpunkt).

Name Typ Beschreibung
Optionen Choices[] Die Liste der Vervollständigungsoptionen, die das Modell für die Eingabeaufforderung generiert hat
erstellte integer Der Unix-Zeitstempel (in Sekunden) des Zeitpunkts, zu dem die Vervollständigung erstellt wurde
Kennung Zeichenfolge Eindeutiger Bezeichner für die Vervollständigung
model Zeichenfolge Das für die Vervollständigung verwendete Modell
Objekt TextCompletionObject Der Objekttyp, der immer „text_completion“ lautet
system_fingerprint Zeichenfolge Dieser Fingerabdruck stellt die Back-End-Konfiguration dar, mit der das Modell ausgeführt wird.

Kann mit dem Anforderungsparameter seed verwendet werden, um zu verstehen, wann Back-End-Änderungen vorgenommen wurden, die sich auf den Determinismus auswirken können.
Nutzung CompletionUsage Nutzungsstatistiken für die Vervollständigungsanforderung

Detail

Name Typ Beschreibung
loc string[] Der Parameter, der das Problem verursacht
value Zeichenfolge Der an den Parameter übergebene Wert, der Probleme verursacht.

TextCompletionObject

Der Objekttyp, der immer „text_completion“ lautet

Name Typ Beschreibung
text_completion Zeichenfolge

ListObject

Der Objekttyp, der immer „list“ lautet.

Name Typ Beschreibung des Dataflows
list Zeichenfolge

NotFoundError

Name Typ Beschreibung des Dataflows
error Zeichenfolge Die Fehlerbeschreibung.
message Zeichenfolge Die Fehlermeldung.
status integer Der HTTP-Statuscode.

TooManyRequestsError

Name Typ Beschreibung des Dataflows
error Zeichenfolge Die Fehlerbeschreibung.
message Zeichenfolge Die Fehlermeldung.
status integer Der HTTP-Statuscode.

UnauthorizedError

Name Typ Beschreibung des Dataflows
error Zeichenfolge Die Fehlerbeschreibung.
message Zeichenfolge Die Fehlermeldung.
status integer Der HTTP-Statuscode.

UnprocessableContentError

Name Typ BESCHREIBUNG
code Zeichenfolge Der Fehlercode.
Detail Detail
error Zeichenfolge Die Fehlerbeschreibung.
message Zeichenfolge Die Fehlermeldung.
status integer Der HTTP-Statuscode.