Condividi tramite


Didascalie delle immagini (versione 4.0)

Le didascalie delle immagini in Analisi delle immagini 4.0 sono disponibili tramite le funzionalità Caption e Dense Captions.

La funzionalità Caption genera una descrizione di una frase per tutto il contenuto dell'immagine. La funzionalità Dense Captions offre maggiori dettagli generando descrizioni di una frase per un massimo di 10 aree dell'immagine diverse, oltre a descrivere l'intera immagine. La funzionalità Dense Captions restituisce anche le coordinate del rettangolo delimitatore delle aree dell'immagine descritte. Entrambe queste funzionalità usano i modelli di IA basati su Florence più recenti.

Le didascalie delle immagini sono disponibili solo in lingua inglese.

Importante

La didascalia delle immagini in Analisi delle immagini 4.0 è disponibile solo in determinate aree del data center di Azure: vedere Disponibilità a livello di area. È necessario usare una risorsa di Visione di Azure AI, che si trova in una di queste aree per ottenere i risultati dalle funzionalità Caption e Dense Captions.

Se è necessario usare una risorsa di Visione all'esterno di queste aree per generare didascalie di immagini, usare Analisi delle immagini 3.2 disponibile in tutte le aree di Visione di Azure AI.

Provare le funzionalità di didascalie delle immagini in modo rapido e semplice nel browser usando Vision Studio.

Didascalie indipendenti dal sesso

Per impostazione predefinita, le didascalie contengono termini di genere: "uomo", "donna", "ragazzo" e "ragazza". È possibile sostituire questi termini con "persona" nei risultati e ricevere didascalie neutrali a livello di genere. A tale scopo, è possibile impostare il parametro di richiesta API facoltativo, gender-neutral-caption su true nell'URL della richiesta.

Esempi delle funzionalità Caption e Dense Captions

La risposta JSON seguente illustra le informazioni restituite dall'API Analisi delle immagini 4.0 nell'ambito della descrizione dell'immagine di esempio in base alle caratteristiche visive rilevate.

Foto di un uomo che indica uno schermo

"captions": [
    {
        "text": "a man pointing at a screen",
        "confidence": 0.4891590476036072
    }
]

Usare l'API

La funzionalità di didascalie delle immagini fa parte dell'API Analizza immagine. Includere Caption nel parametro di query features. Quindi, quando si riceverà la risposta JSON completa, analizzare la stringa per individuare il contenuto della sezione "captionResult".

Passaggi successivi