Image Analysis - Analyze Stream
Analysieren Sie das Eingabebild. Die Anforderung enthält entweder einen Bilddatenstrom mit einem beliebigen Inhaltstyp ['image/*', 'application/octet-stream'] oder eine JSON-Nutzlast, die eine URL-Eigenschaft enthält, die zum Abrufen des Bilddatenstroms verwendet werden soll.
POST /imageanalysis:analyze?overload=stream&api-version=2023-04-01-preview
POST /imageanalysis:analyze?overload=stream&features={features}&model-name={model-name}&language={language}&smartcrops-aspect-ratios={smartcrops-aspect-ratios}&gender-neutral-caption={gender-neutral-caption}&api-version=2023-04-01-preview
URI-Parameter
Name | In | Erforderlich | Typ | Beschreibung |
---|---|---|---|---|
api-version
|
query | True |
string |
Angeforderte API-Version. |
features
|
query |
Die angeforderten visuellen Features: Tags, Objekte, Untertitel, denseCaptions, read, smartCrops, people. Dieser Parameter muss angegeben werden, wenn der Parameter "model-name" nicht angegeben wird. |
||
gender-neutral-caption
|
query |
boolean |
Boolesches Flag zum Aktivieren geschlechtsneutraler Untertitel für Caption- und denseCaptions-Features. Wenn dieser Parameter nicht angegeben ist, lautet der Standardwert "false". |
|
language
|
query |
string |
Die gewünschte Sprache für die Ausgabegenerierung. Wenn dieser Parameter nicht angegeben wird, ist der Standardwert „en“. Eine Liste der unterstützten Sprachen finden Sie https://aka.ms/cv-languages unter. |
|
model-name
|
query |
string |
Der Name des benutzerdefinierten trainierten Modells. Dieser Parameter muss angegeben werden, wenn der Parameter "features" nicht angegeben ist. |
|
smartcrops-aspect-ratios
|
query |
string |
Eine Liste der Seitenverhältnisse, die für die SmartCrops-Funktion verwendet werden sollen. Seitenverhältnisse werden berechnet, indem die Zielzuschnittbreite durch die Höhe dividiert wird. Unterstützte Werte liegen zwischen 0,75 und 1,8 (einschließlich). Mehrere Werte sollten durch Trennzeichen getrennt werden. Wenn dieser Parameter nicht angegeben ist, gibt der Dienst einen Zuschneidevorschlag mit einem Seitenverhältnis zurück, das zwischen 0,5 und 2,0 (einschließlich) passt. |
Anforderungstext
Media Types: "application/octet-stream", "image/jpeg", "image/gif", "image/tiff", "image/bmp", "image/png"
Name | Typ | Beschreibung |
---|---|---|
body |
string |
Ein Bildstream. |
Antworten
Name | Typ | Beschreibung |
---|---|---|
200 OK |
Erfolg |
|
Other Status Codes |
Fehler Header x-ms-error-code: string |
Beispiele
AnalyzeImageFromImageStream_CustomModel
Beispielanforderung
POST /imageanalysis:analyze?overload=stream&model-name=my_model_name&api-version=2023-04-01-preview
"Ynl0ZXM="
Beispiel für eine Antwort
{
"modelVersion": "2023-04-01-preview",
"customModelResult": {
"objectsResult": {
"values": [
{
"id": "1",
"boundingBox": {
"x": 197,
"y": 68,
"w": 356,
"h": 394
},
"tags": [
{
"name": "class1",
"confidence": 0.92431640625
}
]
},
{
"id": "2",
"boundingBox": {
"x": 0,
"y": 77,
"w": 241,
"h": 359
},
"tags": [
{
"name": "class1",
"confidence": 0.87890625
}
]
}
]
}
},
"metadata": {
"width": 660,
"height": 495
}
}
Definitionen
Name | Beschreibung |
---|---|
Adult |
Ein Objekt, das die Übereinstimmung mit erwachsenen Inhalten beschreibt. |
Adult |
Ein Objekt, das beschreibt, ob das Bild erwachsene Inhalte enthält und/oder gleich ist. |
Bounding |
Ein Begrenzungsrahmen für einen Bereich innerhalb eines Bilds. |
Caption |
Eine kurze Beschreibung der Abbildung. |
Crop |
Eine Region, die für das intelligente Zuschneiden identifiziert wurde. Für jedes angeforderte Seitenverhältnis wird eine Region zurückgegeben. |
Dense |
Eine kurze Beschreibung der Abbildung. |
Dense |
Eine Liste von Untertiteln. |
Detected |
Beschreibt ein erkanntes Objekt in einem Bild. |
Detected |
Eine Person, die in einem Bild erkannt wurde. |
Document |
Ein Inhaltszeilenobjekt, das aus einer angrenzenden Sequenz von Inhaltselementen wie Wörtern und Auswahlzeichen besteht. |
Document |
Die Inhalts- und Layoutelemente, die aus einer Seite aus der Eingabe extrahiert wurden. |
Document |
Zusammenhängender Bereich der verketteten Inhaltseigenschaft, angegeben als Offset und Länge. |
Document |
Ein Objekt, das beobachtete Textstile darstellt. |
Document |
Ein Wortobjekt, das aus einer zusammenhängenden Sequenz von Zeichen besteht. Für Sprachen ohne Leerzeichen, z. B. Chinesisch, Japanisch und Koreanisch, wird jedes Zeichen als eigenes Wort dargestellt. |
Error |
Antwort, die zurückgegeben wird, wenn ein Fehler auftritt. |
Error |
Fehlerinformationen. |
Error |
Detaillierter Fehler. |
Image |
Beschreiben sie die kombinierten Ergebnisse verschiedener Arten von Bildanalysen. |
Image |
Die Metadateninformationen des Bilds, z. B. Höhe und Breite. |
Image |
Beschreibt das Vorhersageergebnis eines Bilds. |
Objects |
Beschreibt erkannte Objekte in einem Bild. |
People |
Ein Objekt, das beschreibt, ob das Bild Personen enthält. |
Read |
Die Ergebnisse eines Lesevorgangs. |
Smart |
Ergebnis des intelligenten Zuschneidens. |
Tag |
Eine Entitätsbeobachtung im Bild zusammen mit der Konfidenzbewertung. |
Tags |
Eine Liste von Tags mit Konfidenzniveau. |
Visual |
Die angeforderten visuellen Features: Tags, Objekte, Untertitel, denseCaptions, Read, smartCrops, People. Dieser Parameter muss angegeben werden, wenn der Parameter "model-name" nicht angegeben wird. |
AdultMatch
Ein Objekt, das die Übereinstimmung mit erwachsenen Inhalten beschreibt.
Name | Typ | Beschreibung |
---|---|---|
confidence |
number |
Ein Wert, der das Konfidenzniveau übereinstimmender inhalte angibt. |
isMatch |
boolean |
Ein Wert, der angibt, ob das Bild mit erwachsenen Inhalten übereinstimmt. |
AdultResult
Ein Objekt, das beschreibt, ob das Bild erwachsene Inhalte enthält und/oder gleich ist.
Name | Typ | Beschreibung |
---|---|---|
adult |
Ein Objekt, das die Übereinstimmung mit erwachsenen Inhalten beschreibt. |
|
gore |
Ein Objekt, das die Übereinstimmung mit erwachsenen Inhalten beschreibt. |
|
racy |
Ein Objekt, das die Übereinstimmung mit erwachsenen Inhalten beschreibt. |
BoundingBox
Ein Begrenzungsrahmen für einen Bereich innerhalb eines Bilds.
Name | Typ | Beschreibung |
---|---|---|
h |
integer |
Gemessene Höhe des linken oberen Punkts des Bereichs, in Pixeln. |
w |
integer |
Gemessene Breite des linken oberen Punkts des Bereichs, in Pixeln. |
x |
integer |
Linke Koordinate des linken oberen Punkts des Bereichs, in Pixeln. |
y |
integer |
Oberste Koordinate des linken oberen Punkts des Bereichs, in Pixeln. |
CaptionResult
Eine kurze Beschreibung der Abbildung.
Name | Typ | Beschreibung |
---|---|---|
confidence |
number |
Die Zuverlässigkeit, die der Dienst in der Beschriftung hat. |
text |
string |
Der Text der Beschriftung. |
CropRegion
Eine Region, die für das intelligente Zuschneiden identifiziert wurde. Für jedes angeforderte Seitenverhältnis wird eine Region zurückgegeben.
Name | Typ | Beschreibung |
---|---|---|
aspectRatio |
number |
Das Seitenverhältnis des Anbaubereichs. |
boundingBox |
Ein Begrenzungsrahmen für einen Bereich innerhalb eines Bilds. |
DenseCaption
Eine kurze Beschreibung der Abbildung.
Name | Typ | Beschreibung |
---|---|---|
boundingBox |
Ein Begrenzungsrahmen für einen Bereich innerhalb eines Bilds. |
|
confidence |
number |
Die Zuverlässigkeit, die der Dienst in der Beschriftung hat. |
text |
string |
Der Text der Beschriftung. |
DenseCaptionsResult
Eine Liste von Untertiteln.
Name | Typ | Beschreibung |
---|---|---|
values |
Eine Liste von Untertiteln. |
DetectedObject
Beschreibt ein erkanntes Objekt in einem Bild.
Name | Typ | Beschreibung |
---|---|---|
boundingBox |
Ein Begrenzungsrahmen für einen Bereich innerhalb eines Bilds. |
|
id |
string |
ID des erkannten Objekts. |
tags |
Tag[] |
Klassifizierungskonfidenzen des erkannten Objekts. |
DetectedPerson
Eine Person, die in einem Bild erkannt wurde.
Name | Typ | Beschreibung |
---|---|---|
boundingBox |
Ein Begrenzungsrahmen für einen Bereich innerhalb eines Bilds. |
|
confidence |
number |
Konfidenzbewertung der Person im Bild als Wert zwischen 0 und 1. |
DocumentLine
Ein Inhaltszeilenobjekt, das aus einer angrenzenden Sequenz von Inhaltselementen wie Wörtern und Auswahlzeichen besteht.
Name | Typ | Beschreibung |
---|---|---|
boundingBox |
number[] |
Begrenzungsrahmen der Zeile. |
content |
string |
Verketteter Inhalt der enthaltenen Elemente in Lesereihenfolge. |
spans |
Position der Zeile in der Lesereihenfolge verketteten Inhalt. |
DocumentPage
Die Inhalts- und Layoutelemente, die aus einer Seite aus der Eingabe extrahiert wurden.
Name | Typ | Beschreibung |
---|---|---|
angle |
number |
Die allgemeine Ausrichtung des Inhalts im Uhrzeigersinn, gemessen in Grad zwischen (-180, 180). |
height |
number |
Die Höhe des Bilds/PDF in Pixel/Zoll. |
lines |
Extrahierte Zeilen aus der Seite, die möglicherweise sowohl textliche als auch visuelle Elemente enthalten. |
|
pageNumber |
integer |
1-basierte Seitenzahl im Eingabedokument. |
spans |
Speicherort der Seite in der Lesereihenfolge verketteter Inhalte. |
|
width |
number |
Die Breite des Bilds/PDF in Pixel/Zoll. |
words |
Wörter aus der Seite extrahiert. |
DocumentSpan
Zusammenhängender Bereich der verketteten Inhaltseigenschaft, angegeben als Offset und Länge.
Name | Typ | Beschreibung |
---|---|---|
length |
integer |
Anzahl der Zeichen im Inhalt, der durch die Spanne dargestellt wird. |
offset |
integer |
Nullbasierter Index des Inhalts, der durch die Spanne dargestellt wird. |
DocumentStyle
Ein Objekt, das beobachtete Textstile darstellt.
Name | Typ | Beschreibung |
---|---|---|
confidence |
number |
Vertrauen bei der korrekten Identifizierung des Stils. |
isHandwritten |
boolean |
Inhalt ist handschriftlich geschrieben oder nicht. |
spans |
Speicherort der Textelemente im verketteten Inhalt, auf den das Format angewendet wird. |
DocumentWord
Ein Wortobjekt, das aus einer zusammenhängenden Sequenz von Zeichen besteht. Für Sprachen ohne Leerzeichen, z. B. Chinesisch, Japanisch und Koreanisch, wird jedes Zeichen als eigenes Wort dargestellt.
Name | Typ | Beschreibung |
---|---|---|
boundingBox |
number[] |
Umgebendes Feld des Worts. |
confidence |
number |
Vertrauen beim korrekten Extrahieren des Worts. |
content |
string |
Textinhalt des Worts. |
span |
Zusammenhängender Bereich der verketteten Inhaltseigenschaft, der als Offset und Länge angegeben wird. |
ErrorResponse
Antwort, die zurückgegeben wird, wenn ein Fehler auftritt.
Name | Typ | Beschreibung |
---|---|---|
error |
Fehlerinformationen. |
ErrorResponseDetails
Fehlerinformationen.
Name | Typ | Beschreibung |
---|---|---|
code |
string |
Fehlercode |
details |
Liste der detaillierten Fehler. |
|
innererror |
Detaillierter Fehler. |
|
message |
string |
Fehlermeldung. |
target |
string |
Ziel des Fehlers. |
ErrorResponseInnerError
Detaillierter Fehler.
Name | Typ | Beschreibung |
---|---|---|
code |
string |
Fehlercode |
innererror |
Detaillierter Fehler. |
|
message |
string |
Fehlermeldung. |
ImageAnalysisResult
Beschreiben sie die kombinierten Ergebnisse verschiedener Arten von Bildanalysen.
Name | Typ | Beschreibung |
---|---|---|
adultResult |
Ein Objekt, das beschreibt, ob das Bild erwachsene Inhalte enthält und/oder gleich ist. |
|
captionResult |
Eine kurze Beschreibung der Abbildung. |
|
customModelResult |
Beschreibt das Vorhersageergebnis eines Bilds. |
|
denseCaptionsResult |
Eine Liste von Untertiteln. |
|
metadata |
Die Metadateninformationen des Bilds, z. B. Höhe und Breite. |
|
modelVersion |
string |
Die Modellversion. |
objectsResult |
Beschreibt erkannte Objekte in einem Bild. |
|
peopleResult |
Ein Objekt, das beschreibt, ob das Bild Personen enthält. |
|
readResult |
Die Ergebnisse eines Lesevorgangs. |
|
smartCropsResult |
Ergebnis des intelligenten Zuschneidens. |
|
tagsResult |
Eine Liste von Tags mit Konfidenzniveau. |
ImageMetadataApiModel
Die Metadateninformationen des Bilds, z. B. Höhe und Breite.
Name | Typ | Beschreibung |
---|---|---|
height |
integer |
Die Höhe des Bilds in Pixeln. |
width |
integer |
Die Breite des Bilds in Pixeln. |
ImagePredictionResult
Beschreibt das Vorhersageergebnis eines Bilds.
Name | Typ | Beschreibung |
---|---|---|
objectsResult |
Beschreibt erkannte Objekte in einem Bild. |
|
tagsResult |
Eine Liste von Tags mit Konfidenzniveau. |
ObjectsResult
Beschreibt erkannte Objekte in einem Bild.
Name | Typ | Beschreibung |
---|---|---|
values |
Ein Array von erkannten Objekten. |
PeopleResult
Ein Objekt, das beschreibt, ob das Bild Personen enthält.
Name | Typ | Beschreibung |
---|---|---|
values |
Ein Array von erkannten Personen. |
ReadResult
Die Ergebnisse eines Lesevorgangs.
Name | Typ | Beschreibung |
---|---|---|
content |
string |
Verketten Sie die Zeichenfolgendarstellung aller textuellen und visuellen Elemente in Lesereihenfolge. |
pages |
Eine Liste der analysierten Seiten. |
|
stringIndexType |
string |
Die Methode, die zum Berechnen von Zeichenfolgenoffset und -länge verwendet wird, und mögliche Werte umfassen: "textElements", "unicodeCodePoint", "utf16CodeUnit" usw. |
styles |
Extrahierte Schriftstile. |
SmartCropsResult
Ergebnis des intelligenten Zuschneidens.
Name | Typ | Beschreibung |
---|---|---|
values |
Empfohlene Regionen zum Zuschneiden des Bilds. |
Tag
Eine Entitätsbeobachtung im Bild zusammen mit der Konfidenzbewertung.
Name | Typ | Beschreibung |
---|---|---|
confidence |
number |
Das Maß an Vertrauen, das die Entität beobachtet hat. |
name |
string |
Name der Entität. |
TagsResult
Eine Liste von Tags mit Konfidenzniveau.
Name | Typ | Beschreibung |
---|---|---|
values |
Tag[] |
Eine Liste von Tags mit Konfidenzniveau. |
VisualFeature
Die angeforderten visuellen Features: Tags, Objekte, Untertitel, denseCaptions, Read, smartCrops, People. Dieser Parameter muss angegeben werden, wenn der Parameter "model-name" nicht angegeben wird.
Name | Typ | Beschreibung |
---|---|---|
caption |
string |
|
denseCaptions |
string |
|
objects |
string |
|
people |
string |
|
read |
string |
|
smartCrops |
string |
|
tags |
string |