Condividi tramite


Incorporamenti multimodali (versione 4.0)

L'incorporamento multimodale è il processo di generazione della rappresentazione vettoriale di un'immagine che ne acquisisce le caratteristiche e le peculiarità. Questi vettori codificano il contenuto e il contesto di un'immagine in modo che sia compatibile con la ricerca di testo nello stesso spazio vettoriale.

I sistemi di recupero delle immagini hanno tradizionalmente usato funzionalità estratte dalle immagini, ad esempio etichette di contenuto, tag e descrittori di immagini, per confrontare le immagini e classificarle in base alla somiglianza. Tuttavia, la ricerca della similarità vettoriale offre numerosi vantaggi rispetto alla ricerca tradizionale basata su parole chiave e sta diventando un componente essenziale nei servizi di ricerca di contenuti più diffusi.

La ricerca con parole chiave è il metodo più semplice e tradizionale di recupero delle informazioni. In tale approccio, il motore di ricerca cerca la corrispondenza esatta delle parole chiave o delle frasi immesse dall'utente nella query di ricerca e le confronta con etichette e tag forniti per le immagini. Il motore di ricerca restituisce quindi immagini che contengono le parole chiave esatte come tag di contenuto ed etichette di immagine. La ricerca di parole chiave si basa principalmente sulla capacità dell'utente di usare termini di ricerca pertinenti e specifici.

La ricerca vettoriale esamina grandi raccolte di vettori nello spazio ad alta dimensione per trovare vettori simili a una determinata query. La ricerca vettoriale cerca analogie semantiche acquisendo il contesto e il significato della query di ricerca. Questo approccio è spesso più efficiente rispetto alle tecniche tradizionali di recupero delle immagini, in quanto può ridurre lo spazio di ricerca e migliorare l'accuratezza dei risultati.

Applicazioni aziendali

L'incorporamento multimodale dispone di una serie di applicazioni in diversi campi, tra cui:

  • Gestione degli asset digitali: l’incorporamento multimodale può essere usato per gestire grandi raccolte di immagini digitali, ad esempio musei, archivi o gallerie online. Gli utenti possono cercare immagini in base alle funzionalità visive e recuperare le immagini che soddisfano i criteri.
  • Sicurezza e sorveglianza: la vettorializzazione può essere usata nei sistemi di sicurezza e sorveglianza per cercare immagini in base a caratteristiche o modelli specifici, ad esempio per il rilevamento di persone e oggetti o di minacce.
  • Recupero di immagini forensi: la vettorializzazione può essere usata nelle indagini forensi per cercare immagini in base al contenuto visivo o ai metadati, ad esempio nei casi di criminalità informatica.
  • E-commerce: la vettorializzazione può essere usata nelle applicazioni di shopping online per cercare prodotti simili in base alle loro caratteristiche o descrizioni o fornire raccomandazioni in base agli acquisti precedenti.
  • Moda e design: la vettorializzazione può essere usata nella moda e nella progettazione per cercare immagini in base alle caratteristiche visive, ad esempio colore, motivo o trama. Ciò può aiutare designer o rivenditori a identificare prodotti o tendenze simili.

Attenzione

L' incorporamento multimodale non è stata progettato per analizzare le immagini mediche al fine di individuare le caratteristiche diagnostiche o i modelli di malattia. Non usare l'incorporamento multimodale per scopi medici.

Che cosa sono gli incorporamenti vettoriali?

Gli incorporamenti vettoriali sono un modo per rappresentare il contenuto, ovvero testo o immagini, come vettori di numeri reali in uno spazio ad alta dimensione. Gli incorporamenti vettoriali vengono spesso appresi da grandi quantità di dati testuali e visivi usando algoritmi di Machine Learning, ad esempio reti neurali.

Ogni dimensione del vettore corrisponde a una caratteristica o a un attributo diverso del contenuto, ad esempio il significato semantico, il ruolo sintattico o il contesto in cui viene comunemente visualizzato. In Visione di Azure AI, gli incorporamenti vettoriali di immagini e testi hanno 1024 dimensioni.

Importante

Gli incorporamenti vettoriali possono essere confrontati e abbinati solo se provengono dallo stesso tipo di modello. Le immagini vettorializzate da un modello non saranno ricercabili tramite un modello diverso. Nell'API di Analisi delle immagini più recente sono disponibili due modelli: la versione 2023-04-15 che supporta la ricerca di testo in molte lingue e il modello 2022-04-11 legacy che supporta solo l'inglese.

Come funziona?

Di seguito sono riportati i passaggi principali del processo di recupero delle immagini tramite incorporamenti multimodali.

Diagramma del processo di incorporamento multimodale/recupero immagine.

  1. Vettorializzare immagini e testi: le API degli incorporamenti multimodali VectorizeImage e VectorizeText possono essere usate per estrarre vettori di funzionalità, rispettivamente da un'immagine o da un testo. Le API restituiscono un singolo vettore di funzionalità che rappresenta l'intero input.

    Nota

    L'incorporamento multimodale non esegue alcuna elaborazione biometrica dei visi umani. Per il rilevamento e l'identificazione dei visi, vedere il servizio Viso di Azure AI.

  2. Misura somiglianza: i sistemi di ricerca vettoriale usano in genere metriche di distanza, ad esempio distanza coseno o distanza euclidea, per confrontare i vettori e classificarli in base alla somiglianza. La demo di Vision Studio usa la distanza del coseno per misurare la somiglianza.
  3. Recupera immagini: usare i primi N vettori simili alla query di ricerca e recuperare le immagini corrispondenti a tali vettori dalla raccolta foto per fornire come risultato finale.

Punteggio della rilevanza

I servizi di recupero di immagini e video restituiscono un campo denominato "rilevanza". Il termine "rilevanza" indica una misura di similarità tra una query e gli incorporamenti di immagini o fotogrammi video. Il punteggio della rilevanza è composto da due parti:

  1. La somiglianza del coseno (che rientra nell'intervallo [0,1]) tra la query e gli incorporamenti di immagini o fotogrammi video.
  2. Un punteggio di metadati, che riflette la somiglianza tra la query e i metadati associati all'immagine o al fotogramma video.

Importante

Il punteggio della rilevanza costituisce una misura valida per classificare i risultati, ad esempio le immagini o i fotogrammi video, rispetto ad una singola query. Tuttavia, il punteggio della rilevanza non può essere confrontato in modo accurato tra query diverse. Pertanto, non è possibile eseguire facilmente il mapping del punteggio di pertinenza a un livello di attendibilità. Non è inoltre possibile creare facilmente un algoritmo di soglia per eliminare i risultati irrilevanti basandosi esclusivamente sul punteggio di rilevanza.

Requisiti di input

Input immagine

  • Le dimensioni del file dell'immagine devono essere minori di 20 megabyte (MB)
  • Le dimensioni dell'immagine devono essere superiori a 10 x 10 pixel e inferiori a 16.000 x 16.000 pixel

Input di testo

  • La stringa di testo deve essere compresa tra una parola e 70 parole.

Passaggi successivi

Abilitare gli incorporamenti multimodali per il servizio di ricerca e seguire la procedura per generare incorporamenti vettoriali per testo e immagini.