Didascalie delle immagini (versione 4.0)

Articolo
09/27/2024

Le didascalie delle immagini in Analisi delle immagini 4.0 sono disponibili tramite le funzionalità Caption e Dense Captions.

La funzionalità Caption genera una descrizione di una frase per tutto il contenuto dell'immagine. La funzionalità Dense Captions offre maggiori dettagli generando descrizioni di una frase per un massimo di 10 aree dell'immagine diverse, oltre a descrivere l'intera immagine. La funzionalità Dense Captions restituisce anche le coordinate del rettangolo delimitatore delle aree dell'immagine descritte. Entrambe queste funzionalità usano i modelli di IA basati su Florence più recenti.

Le didascalie delle immagini sono disponibili solo in lingua inglese.

Importante

La didascalia delle immagini in Analisi delle immagini 4.0 è disponibile solo in determinate aree del data center di Azure: vedere Disponibilità a livello di area. È necessario usare una risorsa di Visione di Azure AI, che si trova in una di queste aree per ottenere i risultati dalle funzionalità Caption e Dense Captions.

Se è necessario usare una risorsa di Visione all'esterno di queste aree per generare didascalie di immagini, usare Analisi delle immagini 3.2 disponibile in tutte le aree di Visione di Azure AI.

Provare le funzionalità di didascalie delle immagini in modo rapido e semplice nel browser usando Vision Studio.

Provare Vision Studio

Didascalie indipendenti dal sesso

Per impostazione predefinita, le didascalie contengono termini di genere: "uomo", "donna", "ragazzo" e "ragazza". È possibile sostituire questi termini con "persona" nei risultati e ricevere didascalie neutrali a livello di genere. A tale scopo, è possibile impostare il parametro di richiesta API facoltativo, gender-neutral-caption su true nell'URL della richiesta.

Esempi delle funzionalità Caption e Dense Captions

Caption
Dense Captions

La risposta JSON seguente illustra le informazioni restituite dall'API Analisi delle immagini 4.0 nell'ambito della descrizione dell'immagine di esempio in base alle caratteristiche visive rilevate.

Foto di un uomo che indica uno schermo

"captions": [
    {
        "text": "a man pointing at a screen",
        "confidence": 0.4891590476036072
    }
]

La risposta JSON seguente illustra le informazioni restituite dall'API Analisi delle immagini 4.0 durante la generazione di didascalie compatte per l'immagine di esempio.

Foto di un trattore in una fattoria

{
  "denseCaptionsResult": {
    "values": [
      {
        "text": "a man driving a tractor in a farm",
        "confidence": 0.535620927810669,
        "boundingBox": {
          "x": 0,
          "y": 0,
          "w": 850,
          "h": 567
        }
      },
      {
        "text": "a man driving a tractor in a field",
        "confidence": 0.5428450107574463,
        "boundingBox": {
          "x": 132,
          "y": 266,
          "w": 209,
          "h": 219
        }
      },
      {
        "text": "a blurry image of a tree",
        "confidence": 0.5139822363853455,
        "boundingBox": {
          "x": 147,
          "y": 126,
          "w": 76,
          "h": 131
        }
      },
      {
        "text": "a man riding a tractor",
        "confidence": 0.4799223840236664,
        "boundingBox": {
          "x": 206,
          "y": 264,
          "w": 64,
          "h": 97
        }
      },
      {
        "text": "a blue sky above a hill",
        "confidence": 0.35495415329933167,
        "boundingBox": {
          "x": 0,
          "y": 0,
          "w": 837,
          "h": 166
        }
      },
      {
        "text": "a tractor in a field",
        "confidence": 0.47338250279426575,
        "boundingBox": {
          "x": 0,
          "y": 243,
          "w": 838,
          "h": 311
        }
      }
    ]
  },
  "modelVersion": "2024-02-01",
  "metadata": {
    "width": 850,
    "height": 567
  }
}

La funzionalità di didascalie delle immagini fa parte dell'API Analizza immagine. Includere Caption nel parametro di query features. Quindi, quando si riceverà la risposta JSON completa, analizzare la stringa per individuare il contenuto della sezione "captionResult".

Passaggi successivi

Informazioni sul concetto correlato di rilevamento oggetti.
Avvio rapido: API REST Analisi delle immagini o librerie client
Chiamare l'API Analizza immagine

Condividi tramite

Didascalie delle immagini (versione 4.0)

Didascalie indipendenti dal sesso

Esempi delle funzionalità Caption e Dense Captions

Usare l'API

Passaggi successivi

Commenti e suggerimenti

Risorse aggiuntive