Avvio rapido: analizzare i contenuti multimodali (anteprima)

Articolo
09/27/2024

L'API multimodale analizza i materiali contenenti immagini e testo per rendere le applicazioni e i servizi più protetti da contenuti dannosi generati da utenti o dall'intelligenza artificiale. L'analisi di un'immagine e il relativo contenuto di testo associato possono salvaguardare il contesto e fornire una comprensione più completa dei contenuti.

Per altre informazioni sul modo in cui viene filtrato il contenuto, vedere la Pagina di concetto sulle categorie di danni. Per i limiti di input dell'API, vedere la sezione Requisiti di input della panoramica.

Importante

Questa funzionalità è disponibile solo in determinate aree di Azure. Vedere Disponibilità a livello di area.

Prerequisiti

Una sottoscrizione di Azure: creare un account gratuitamente
Dopo aver creato la sottoscrizione di Azure, Creare una risorsa di Sicurezza dei contenuti nel portale di Azure per ottenere la chiave e l'endpoint. Immettere un nome univoco per la risorsa, selezionare la sottoscrizione, quindi selezionare un gruppo di risorse, un'area supportata e un piano tariffario supportato. Selezionare Crea.
- La distribuzione della risorsa richiede alcuni minuti. Al termine, selezionare Vai alla risorsa. Nel riquadro a sinistra, in Gestione risorse selezionare Chiave di sottoscrizione ed endpoint. Copiare l'endpoint e uno dei valori della chiave in un percorso temporaneo per poterlo usare in seguito.
Una delle seguenti installazioni:
- cURL per le chiamate API REST.
- Python 3.x installato

Analizzare immagini con testo

La sezione seguente illustra una richiesta di moderazione multimodale di esempio con cURL.

Preparare un'immagine di esempio

Scegliere un'immagine di esempio da analizzare e scaricarla nel dispositivo.

Per informazioni sulle limitazioni dell'immagine, vedere Requisiti di input. Se il formato è animato, il servizio estrae il primo fotogramma per eseguire l'analisi.

È possibile immettere l'immagine in uno dei due metodi seguenti: filestream locale o URL di archiviazione BLOB.

Filestream locale (scelta consigliata): codificare l'immagine in base64. È possibile usare un sito Web come codecodetify per eseguire la codifica. Salvare quindi la stringa codificata in una posizione temporanea.
URL di archiviazione BLOB: caricare l'immagine in un account di archiviazione BLOB di Azure. Per informazioni su come eseguire questa operazione, seguire le istruzioni di avvio sull'archiviazione BLOB. Aprire quindi Azure Storage Explorer e ottenere l'URL dell'immagine. Salvarlo anche in un percorso temporaneo.

Analizzare immagini con testo

Incollare il comando qui di seguito in un editor di testo e apportare le modifiche seguenti.

Sostituire <endpoint> con l'URL dell'endpoint della risorsa.
Sostituire <your_subscription_key> con la chiave.
Popolare il campo "image" nel corpo con un campo "content" o uno "blobUrl". Ad esempio, {"image": {"content": "<base_64_string>"} o {"image": {"blobUrl": "<your_storage_url>"}.
Facoltativamente, sostituire il valore del campo "text" con il testo che si vuole analizzare.

curl --location '<endpoint>/contentsafety/imageWithText:analyze?api-version=2024-09-15-preview ' \
--header 'Ocp-Apim-Subscription-Key: <your_subscription_key>' \
--header 'Content-Type: application/json' \
--data '{
  "image": {
      "content": "<base_64_string>"
 },
  "categories": ["Hate","Sexual","Violence","SelfHarm"],
  "enableOcr": true,
  "text": "I want to kill you"
}'

Nota

Se si usa un URL di archiviazione BLOB, il corpo della richiesta deve essere simile al seguente:

{
  "image": {
    "blobUrl": "<your_storage_url>"
  }
}

I campi seguenti devono essere inclusi nell'URL:

Nome	Obbligatorio?	Descrizione	Tipo
Versione dell'API	Richiesto	La versione dell'API da controllare. La versione corrente è: `api-version=2024-09-15`. Esempio: `<endpoint>/contentsafety/imageWithText:analyze?api-version=2024-09-15`	String

I parametri nel corpo della richiesta sono definiti in questa tabella:

Nome	Descrizione	Tipo
contenuto o blobUrl	(Obbligatorio) URL del contenuto o del BLOB dell'immagine. Può essere in byte con codifica Base64 o un URL BLOB. Se vengono specificati entrambi, la richiesta viene rifiutata. La dimensione massima consentita per l’immagine è di 7.200 pixel x 7.200 pixel mentre la dimensione massima del file è di 4 MB. La dimensione minima per l’immagine è di 50 pixel x 50 pixel.	String
Testo	(Facoltativo) Testo associato all'immagine. Sono supportati al massimo 1000 caratteri (punti di codice Unicode) in una richiesta di testo.	String
enableOcr	(Obbligatorio) Se impostato su True, il servizio eseguirà OCR e analizzerà il testo rilevato con l'immagine di input contemporaneamente. Si riconosceranno al massimo 1000 caratteri (punti di codice Unicode) dall'immagine di input. Gli altri verranno troncati.	Booleano
categorie	(Facoltativo) Si presuppone che sia un array di nomi di categoria. Per un elenco dei nomi di categoria disponibili, vedere la Guida alle categorie di danni. Se non vengono specificate categorie, vengono utilizzate tutte e quattro le categorie. Vengono usate più categorie per ottenere punteggi in una singola richiesta.	Enum

Aprire una finestra del prompt dei comandi ed eseguire il comando cURL.

Output

I risultati dell'immagine e della moderazione testo verranno visualizzati come dati JSON nella console. Ad esempio:

{
  "categoriesAnalysis": [
    {
      "category": "Hate",
      "severity": 2
    },
    {
      "category": "SelfHarm",
      "severity": 0
    },
    {
      "category": "Sexual",
      "severity": 0
    },
    {
      "category": "Violence",
      "severity": 0
    }
  ]
}

I campi JSON nell'output sono definiti di seguito:

Nome	Descrizione	Tipo
categoriesAnalysis	Ogni classe di output stimata dall'API. La classificazione può essere con etichetta multipla. Ad esempio, quando un'immagine viene caricata nel modello di moderazione delle immagini, può essere classificata come avente contenuto sia sessuale che violento. Categorie di danni	String
Gravità	Livello di gravità del flag in ogni categoria di danni. Categorie di danni	Intero

Condividi tramite

Avvio rapido: analizzare i contenuti multimodali (anteprima)

Prerequisiti

Analizzare immagini con testo

Preparare un'immagine di esempio

Analizzare immagini con testo

Output

Commenti e suggerimenti

Risorse aggiuntive