Referenz: Chatabschluss | Azure Machine Learning
Erstellt eine Vervollständigung für den angegebenen Prompt und die angegebenen Parameter.
POST /completions?api-version=2024-04-01-preview
Name | Geben Sie in | Erforderlich | Type | BESCHREIBUNG |
---|---|---|---|---|
api-version | Abfrage | True | Zeichenfolge | Die Version der API im Format "JJJJ-MM-TT" oder "JJJJ-MM-TT-Vorschau" |
Anforderungsheader
Name | Erforderlich | Type | Beschreibung |
---|---|---|---|
Zusätzliche Parameter | Zeichenfolge | Das Verhalten der API, wenn zusätzliche Parameter in der Nutzlast angegeben werden. Durch die Verwendung von pass-through wird die API zum Übergeben des Parameters an das zugrunde liegende Modell angeregt. Verwenden Sie diesen Wert, wenn Sie Parameter übergeben möchten, die Ihnen bekannt sind, damit das zugrunde liegende Modell unterstützt werden kann. Die Verwendung von ignore führt dazu, dass die API alle nicht unterstützten Parameter ablegt. Verwenden Sie diesen Wert, wenn Sie dieselbe Nutzlast in verschiedenen Modellen verwenden müssen, aber einer der zusätzlichen Parameter kann dazu führen, dass ein Modell ausfällt, wenn es nicht unterstützt wird. Die Verwendung von error sorgt dafür, dass die API alle zusätzlichen Parameter in der Nutzlast ablehnt. Es können nur Parameter angegeben werden, die in dieser API festgelegt sind, ansonsten wird ein 400-Fehler zurückgegeben. |
|
azureml-model-deployment | Zeichenfolge | Name der Bereitstellung, an die Sie die Anforderung weiterleiten möchten Unterstützt für Endpunkte, die mehrere Bereitstellungen unterstützen |
Anforderungstext
Name | Erforderlich | Type | Beschreibung |
---|---|---|---|
prompt | True | Die Prompts zum Generieren von Vervollständigungen, die als Zeichenfolge, Array von Zeichenfolgen, Array von Token oder Array von Tokenarrays codiert werden Beachten Sie, dass <\|endoftext\|> das Dokumententrennzeichen enthält, das das Modell während des Trainings sieht. Wenn kein Prompt angegeben wird, generiert das Modell daher so, als würde es sich am Anfang eines neuen Dokuments befinden. |
|
frequency_penalty | Zahl | Positive Werte benachteiligen neue Token auf der Grundlage ihrer bisherigen Häufigkeit im Text, wodurch die Wahrscheinlichkeit, dass das Modell dieselbe Zeile wortwörtlich wiederholt, sinkt. | |
max_tokens | integer | Die maximale Anzahl von Token, die in der Vervollständigung generiert werden können. Die Tokenanzahl Ihres Prompts plus max_tokens darf die Kontextlänge des Modells nicht überschreiten. |
|
presence_penalty | Zahl | Positive Werte benachteiligen neue Token, je nachdem, ob sie bereits im Text vorkommen, und erhöhen so die Wahrscheinlichkeit, dass das Modell über neue Themen spricht. | |
seed | integer | Wenn dies angeben ist, bemüht sich das Modell nach besten Kräften, eine deterministische Auswahl der Token zu treffen, sodass wiederholte Anforderungen mit demselben seed und denselben Parametern dasselbe Ergebnis liefern sollten.Der Determinismus ist nicht garantiert, und Sie sollten sich auf den Antwortparameter system_fingerprint beziehen, um Änderungen im Back-End zu überwachen. |
|
stop | Sequenzen, bei denen die API aufhört, weitere Token zu generieren. Die Beendigungssequenz ist nicht im zurückgegebenen Text enthalten. | ||
Datenstrom | boolean | Gibt an, ob der Teilfortschritt zurückgestreamt werden soll. Wenn dieser Parameter festgelegt wird, werden Token als vom Server gesendete Ereignisse (nur Daten) übermittelt, sobald sie verfügbar sind, wobei der Stream durch die Nachricht data: [DONE] beendet wird. |
|
Temperatur | Zahl | Die zu verwendende Temperatur für die Stichprobenentnahme zwischen 0 und 2. Durch höhere Werte wie 0,8 wird die Ausgabe zufälliger, während sie durch niedrigere Werte wie 0,2 fokussierter und deterministischer wird. Im Allgemeinen wird empfohlen, temperature oder top_p zu ändern, aber nicht beides. |
|
top_p | Zahl | Eine Alternative zur Stichprobenentnahme mit Temperatur, die sogenannte Kernstichprobenentnahme (Nucleus Sampling), bei dem das Modell die Ergebnisse der Token mit der Wahrscheinlichkeitsmasse „top_p“ berücksichtigt. Daher bedeutet 0,1, dass nur die Token berücksichtigt werden, die die oberen 10 % der Wahrscheinlichkeitsmasse umfassen. Im Allgemeinen wird empfohlen, top_p oder temperature zu ändern, aber nicht beides. |
Antworten
Name | Typ | BESCHREIBUNG |
---|---|---|
200 – OK | CreateCompletionResponse | OK |
401 – Nicht autorisiert | UnauthorizedError | Zugriffstoken fehlt oder ist ungültig Kopfzeile x-ms-error-code: string |
404 Nicht gefunden | NotFoundError | Modalität wird vom Modell nicht unterstützt. Sehen Sie in der Dokumentation des Modells nach, welche Routen verfügbar sind. Kopfzeile x-ms-error-code: string |
422: Entität kann nicht verarbeitet werden | UnprocessableContentError | Die Anforderung enthält nicht verarbeitbaren Inhalt. Kopfzeile x-ms-error-code: string |
429 – Zu viele Anforderungen | TooManyRequestsError | Sie haben das zugewiesene Ratenlimit erreicht, und Ihre Anforderung muss beschleunigt werden. Kopfzeile x-ms-error-code: string |
Andere Statuscodes | ContentFilterError | Ungültige Anforderung Kopfzeile x-ms-error-code: string |
Sicherheit
Autorisierung
Das Token mit dem Bearer:
-Präfix, z. B. Bearer abcde12345
Typ: apiKey
In: Header
AADToken
Azure Active Directory OAuth2-Authentifizierung
Typ: oauth2
Flow: Anwendung
Token-URL: https://login.microsoftonline.com/common/oauth2/v2.0/token
Beispiele
Erstellt eine Vervollständigung für den angegebenen Prompt und die angegebenen Parameter
Beispiel-Anfrage
POST /completions?api-version=2024-04-01-preview
{
"prompt": "This is a very good text",
"frequency_penalty": 0,
"presence_penalty": 0,
"max_tokens": 256,
"seed": 42,
"stop": "<|endoftext|>",
"stream": false,
"temperature": 0,
"top_p": 1
}
Beispiel für eine Antwort
Statuscode: 200
{
"id": "1234567890",
"model": "llama2-7b",
"choices": [
{
"index": 0,
"finish_reason": "stop",
"text": ", indeed it is a good one."
}
],
"created": 1234567890,
"object": "text_completion",
"usage": {
"prompt_tokens": 15,
"completion_tokens": 8,
"total_tokens": 23
}
}
Definitionen
Name | Beschreibung |
---|---|
Optionen | Eine Liste der Auswahlmöglichkeiten für den Chatabschluss. |
CompletionFinishReason | Der Grund, warum das Modell das Generieren von Token beendet hat. Dies ist stop , wenn das Modell einen natürlichen Stopppunkt oder eine angegebene Stoppsequenz erreicht hat, oder length , wenn die in der Anforderung angegebene maximale Anzahl von Token erreicht wurde, oder content_filter , wenn Inhalte aufgrund eines Flags in unseren Inhaltsfiltern ausgelassen wurden. |
CompletionUsage | Nutzungsstatistiken für die Vervollständigungsanforderung |
ContentFilterError | Der API-Aufruf schlägt fehl, wenn der Prompt einen Inhaltsfilter wie konfiguriert auslöst. Ändern Sie die Äußerung, und versuchen Sie es erneut. |
CreateCompletionRequest | |
CreateCompletionResponse | Stellt eine Vervollständigungsantwort der API dar. |
Detail | |
TextCompletionObject | Der Objekttyp, der immer „text_completion“ lautet |
UnprocessableContentError |
Optionen
Eine Liste der Auswahlmöglichkeiten für den Chatabschluss.
Name | Typ | Beschreibung |
---|---|---|
finish_reason | CompletionFinishReason | Der Grund, warum das Modell das Generieren von Token beendet hat. Dies ist stop , wenn das Modell einen natürlichen Stopppunkt oder eine angegebene Stoppsequenz erreicht hat, oder length , wenn die in der Anforderung angegebene maximale Anzahl von Token erreicht wurde, oder content_filter , wenn Inhalte aufgrund eines Flags in unseren Inhaltsfiltern ausgelassen wurden, oder tool_calls , wenn das Modell ein Tool aufgerufen hat. |
Index | integer | Der Index der Auswahl in der Liste der Auswahlmöglichkeiten |
Text | Zeichenfolge | Der generierte Text. |
CompletionFinishReason
Der Grund, warum das Modell das Generieren von Token beendet hat. Dies ist stop
, wenn das Modell einen natürlichen Stopppunkt oder eine angegebene Stoppsequenz erreicht hat, oder length
, wenn die in der Anforderung angegebene maximale Anzahl von Token erreicht wurde, oder content_filter
, wenn Inhalte aufgrund eines Flags in unseren Inhaltsfiltern ausgelassen wurden.
Name | Typ | Beschreibung |
---|---|---|
content_filter | Zeichenfolge | |
length | Zeichenfolge | |
stop | Zeichenfolge |
CompletionUsage
Nutzungsstatistiken für die Vervollständigungsanforderung
Name | Typ | Beschreibung |
---|---|---|
completion_tokens | integer | Anzahl der Token in der generierten Vervollständigung |
prompt_tokens | integer | Anzahl der Token im Prompt. |
total_tokens | integer | Die Gesamtzahl der in der Anforderung verwendeten Token (Prompt + Vervollständigung). |
ContentFilterError
Der API-Aufruf schlägt fehl, wenn der Prompt einen Inhaltsfilter wie konfiguriert auslöst. Ändern Sie die Äußerung, und versuchen Sie es erneut.
Name | Typ | BESCHREIBUNG |
---|---|---|
code | Zeichenfolge | Der Fehlercode. |
error | Zeichenfolge | Die Fehlerbeschreibung. |
message | Zeichenfolge | Die Fehlermeldung. |
param | Zeichenfolge | Der Parameter, der den Inhaltsfilter ausgelöst hat. |
status | integer | Der HTTP-Statuscode. |
CreateCompletionRequest
Name | Type | Standardwert | Beschreibung |
---|---|---|---|
frequency_penalty | Zahl | 0 | Positive Werte benachteiligen neue Token auf der Grundlage ihrer bisherigen Häufigkeit im Text, wodurch die Wahrscheinlichkeit, dass das Modell dieselbe Zeile wortwörtlich wiederholt, sinkt. |
max_tokens | integer | 256 | Die maximale Anzahl von Token, die in der Vervollständigung generiert werden können. Die Tokenanzahl Ihres Prompts plus max_tokens darf die Kontextlänge des Modells nicht überschreiten. |
presence_penalty | Zahl | 0 | Positive Werte benachteiligen neue Token, je nachdem, ob sie bereits im Text vorkommen, und erhöhen so die Wahrscheinlichkeit, dass das Modell über neue Themen spricht. |
prompt | <\|endoftext\|> |
Die Prompts zum Generieren von Vervollständigungen, die als Zeichenfolge, Array von Zeichenfolgen, Array von Token oder Array von Tokenarrays codiert werden Beachten Sie, dass <\|endoftext\|> das Dokumententrennzeichen enthält, das das Modell während des Trainings sieht. Wenn kein Prompt angegeben wird, generiert das Modell daher so, als würde es sich am Anfang eines neuen Dokuments befinden. |
|
seed | integer | Wenn Sie dies angeben, bemüht sich unser System nach besten Kräften, eine deterministische Auswahl zu treffen, sodass wiederholte Anforderungen mit demselben seed und denselben Parametern dasselbe Ergebnis liefern sollten.Der Determinismus ist nicht garantiert, und Sie sollten sich auf den Antwortparameter system_fingerprint beziehen, um Änderungen im Back-End zu überwachen. |
|
stop | Sequenzen, bei denen die API aufhört, weitere Token zu generieren. Die Beendigungssequenz ist nicht im zurückgegebenen Text enthalten. | ||
Datenstrom | boolean | False | Gibt an, ob der Teilfortschritt zurückgestreamt werden soll. Wenn dieser Parameter festgelegt wird, werden Token als vom Server gesendete Ereignisse (nur Daten) übermittelt, sobald sie verfügbar sind, wobei der Stream durch die Nachricht data: [DONE] beendet wird. |
Temperatur | number | 1 | Die zu verwendende Temperatur für die Stichprobenentnahme zwischen 0 und 2. Durch höhere Werte wie 0,8 wird die Ausgabe zufälliger, während sie durch niedrigere Werte wie 0,2 fokussierter und deterministischer wird. Wir empfehlen im Allgemeinen, dies oder top_p zu ändern, aber nicht beides. |
top_p | number | 1 | Eine Alternative zur Stichprobenentnahme mit Temperatur, die sogenannte Kernstichprobenentnahme (Nucleus Sampling), bei dem das Modell die Ergebnisse der Token mit der Wahrscheinlichkeitsmasse „top_p“ berücksichtigt. Daher bedeutet 0,1, dass nur die Token berücksichtigt werden, die die oberen 10 % der Wahrscheinlichkeitsmasse umfassen. Wir empfehlen im Allgemeinen, dies oder temperature zu ändern, aber nicht beides. |
CreateCompletionResponse
Stellt eine Vervollständigungsantwort der API dar. Hinweis: Sowohl die gestreamten als auch nicht gestreamten Antwortobjekte verwenden dieselbe Form (im Gegensatz zum Chatendpunkt).
Name | Typ | Beschreibung |
---|---|---|
Optionen | Choices[] | Die Liste der Vervollständigungsoptionen, die das Modell für die Eingabeaufforderung generiert hat |
erstellte | integer | Der Unix-Zeitstempel (in Sekunden) des Zeitpunkts, zu dem die Vervollständigung erstellt wurde |
Kennung | Zeichenfolge | Eindeutiger Bezeichner für die Vervollständigung |
model | Zeichenfolge | Das für die Vervollständigung verwendete Modell |
Objekt | TextCompletionObject | Der Objekttyp, der immer „text_completion“ lautet |
system_fingerprint | Zeichenfolge | Dieser Fingerabdruck stellt die Back-End-Konfiguration dar, mit der das Modell ausgeführt wird. Kann mit dem Anforderungsparameter seed verwendet werden, um zu verstehen, wann Back-End-Änderungen vorgenommen wurden, die sich auf den Determinismus auswirken können. |
Nutzung | CompletionUsage | Nutzungsstatistiken für die Vervollständigungsanforderung |
Detail
Name | Typ | Beschreibung |
---|---|---|
loc | string[] | Der Parameter, der das Problem verursacht |
value | Zeichenfolge | Der an den Parameter übergebene Wert, der Probleme verursacht. |
TextCompletionObject
Der Objekttyp, der immer „text_completion“ lautet
Name | Typ | Beschreibung |
---|---|---|
text_completion | Zeichenfolge |
ListObject
Der Objekttyp, der immer „list“ lautet.
Name | Typ | Beschreibung des Dataflows |
---|---|---|
list | Zeichenfolge |
NotFoundError
Name | Typ | Beschreibung des Dataflows |
---|---|---|
error | Zeichenfolge | Die Fehlerbeschreibung. |
message | Zeichenfolge | Die Fehlermeldung. |
status | integer | Der HTTP-Statuscode. |
TooManyRequestsError
Name | Typ | Beschreibung des Dataflows |
---|---|---|
error | Zeichenfolge | Die Fehlerbeschreibung. |
message | Zeichenfolge | Die Fehlermeldung. |
status | integer | Der HTTP-Statuscode. |
UnauthorizedError
Name | Typ | Beschreibung des Dataflows |
---|---|---|
error | Zeichenfolge | Die Fehlerbeschreibung. |
message | Zeichenfolge | Die Fehlermeldung. |
status | integer | Der HTTP-Statuscode. |
UnprocessableContentError
Name | Typ | BESCHREIBUNG |
---|---|---|
code | Zeichenfolge | Der Fehlercode. |
Detail | Detail | |
error | Zeichenfolge | Die Fehlerbeschreibung. |
message | Zeichenfolge | Die Fehlermeldung. |
status | integer | Der HTTP-Statuscode. |