Condividi tramite


Descrizioni e casi d'uso delle metriche usate per il monitoraggio e la valutazione

Questo articolo illustra le metriche usate per il monitoraggio e la valutazione dei modelli di intelligenza artificiale generativa in Azure Machine Learning e le procedure consigliate per l'uso del monitoraggio dei modelli di intelligenza artificiale generativa.

Importante

La funzionalità di monitoraggio è attualmente disponibile in anteprima pubblica. Questa versione di anteprima viene fornita senza un contratto di servizio e non è consigliabile per i carichi di lavoro di produzione. Alcune funzionalità potrebbero non essere supportate o potrebbero presentare funzionalità limitate. Per altre informazioni, vedere le Condizioni supplementari per l'uso delle anteprime di Microsoft Azure.

Il monitoraggio dei modelli consente di tenere traccia delle prestazioni dei modelli nell'ambiente di produzione e mira a comprenderle sia dalla prospettiva del data science che da quella operativa. Per implementare il monitoraggio, Azure Machine Learning usa segnali di monitoraggio acquisiti tramite l'analisi dei dati trasmessi. Ogni segnale di monitoraggio ha una o più metriche. È possibile impostare soglie per queste metriche per ricevere avvisi tramite Azure Machine Learning o Monitoraggio di Azure in caso di anomalie del modello o dei dati.

Allineamento

L'allineamento valuta quanto le risposte generate dal modello sono in linea con le informazioni dell'origine di input. Le risposte vengono verificate come attestazioni in relazione al contesto nell'origine di dati reali di riferimento definita dall'utente: anche se le risposte sono vere (fattualmente corrette), se non sono verificabili rispetto al testo di origine, vengono indicate come non allineate. Le risposte vengono verificate come attestazioni in relazione al "contesto" nell'origine di dati reali di riferimento (ad esempio l'origine di input o il database).

  • Casi d'uso: quando si ritiene che l'applicazione possa generare informazioni che non sono incluse come parte della conoscenza sottoposta a training dell'intelligenza artificiale generativa (ovvero informazioni non verificabili).|
  • Modalità di lettura: se le risposte del modello hanno un elevato livello di allineamento, significa che i fatti riportati nelle risposte del sistema di intelligenza artificiale sono verificabili tramite l'origine di input o il database interno. Al contrario, punteggi di allineamento bassi suggeriscono che i fatti menzionati nelle risposte del sistema di intelligenza artificiale potrebbero non essere adeguatamente supportati o verificabili tramite l'origine di input o il database interno. In questi casi, le risposte generate dal modello possono essere basate esclusivamente sulla conoscenza ottenuta dal training precedente, che potrebbe non essere allineata al contesto o al dominio specifico dell'input fornito
  • Scale (Scala):
    • 1 = "non allineato": indica che le risposte non sono verificabili tramite l'origine di input o il database interno.
    • 5 = "perfettamente allineato" indica che i fatti riportati nelle risposte del sistema di intelligenza artificiale sono verificabili tramite l'origine di input o il database interno.

Pertinenza

La metrica relativa alla pertinenza valuta la misura in cui le risposte generate dal modello sono pertinenti e direttamente correlate alle domande indicate. Quando gli utenti interagiscono con un modello di intelligenza artificiale generativa, pongono domande o immettono prompt e si aspettano risposte significative e contestualmente appropriate.

  • Casi d'uso: quando si vuole ottenere una pertinenza elevata per le risposte dell'applicazione per migliorare l'esperienza utente e l'utilità dei sistemi di intelligenza artificiale generativi.
  • Modalità di lettura: i punteggi delle risposte dipendono dalla loro capacità di catturare i punti chiave della domanda dal contesto nell'origine di dati reali di riferimento. Se le risposte del modello sono molto pertinenti, significa che il sistema di intelligenza artificiale comprende l'input e può produrre output coerenti e contestualmente appropriati. Viceversa, punteggi di pertinenza bassi suggeriscono che le risposte generate potrebbero essere fuori argomento, senza contesto o non sufficientemente esaurienti per le domande dell'utente.  
  • Scale (Scala):
    • 1 = "non pertinente" indica che le risposte generate potrebbero essere fuori argomento, senza contesto o non sufficientemente esaurienti per le domande dell'utente.  
    • 5 = "pertinenza perfetta" indica output contestualmente appropriati.

Coerenza

La coerenza valuta la capacità del modello linguistico di produrre output fluido, capace di scorrere in modo naturale e simile al linguaggio umano. Il bot comunica i messaggi in modo breve e chiaro, usando un linguaggio semplice e appropriato ed evitando informazioni inutili o poco chiare? Per l'utente è facile comprendere e seguire le risposte del bot e tali risposte soddisfano le esigenze e le aspettative dell'utente?

  • Casi d'uso: quando si vuole testare la leggibilità e la chiarezza delle risposte generate dal modello nelle applicazioni reali.
  • Modalità di lettura: se le risposte del modello sono molto coerenti, significa che il sistema di intelligenza artificiale genera testo comprensibile e ben strutturato con transizioni scorrevoli. Un contesto coerente in tutto il testo migliora la leggibilità e la comprensione. Un livello di coerenza basso significa che la qualità delle frasi nella risposta di un modello è scarsa e le frasi non scorrono in modo naturale. Nel testo generato può mancare un flusso logico e le frasi potrebbero risultare non correlate, rendendo difficile per i lettori comprendere il contesto complessivo o il messaggio previsto. Il punteggio alle risposte viene assegnato in base a chiarezza, brevità, linguaggio appropriato e capacità di soddisfare le esigenze e le aspettative degli utenti
  • Scale (Scala):
    • 1 = "non coerente": indica che la qualità delle frasi nella risposta fornita da un modello è scarsa e le frasi non scorrono in modo naturale. Nel testo generato può mancare un flusso logico e le frasi potrebbero risultare non correlate, rendendo difficile per i lettori comprendere il contesto complessivo o il messaggio previsto.
    • 5 = "perfettamente coerente": indica che il sistema di intelligenza artificiale genera testo comprensibile e ben strutturato, con transizioni scorrevoli e contesto coerente in tutto il testo, che migliora la leggibilità e la comprensione.

Scorrevolezza

La scorrevolezza valuta la correttezza linguistica della risposta fornita dall'intelligenza artificiale generativa. Valuta il livello di conformità del testo generato alle regole grammaticali e alle strutture sintattiche, nonché l'utilizzo appropriato del vocabolario, che consentono di fornire risposte linguisticamente corrette e naturali. Le risposte vengono misurate in base alla qualità delle singole frasi e al fatto che siano ben scritte e grammaticalmente corrette. Questa metrica è utile quando si valuta la capacità del modello linguistico di produrre testo conforme all'uso corretto della grammatica, della sintassi e del vocabolario.

  • Casi d'uso: quando si vuole valutare l'accuratezza grammaticale e linguistica delle risposte fornite dall'intelligenza artificiale generativa.
  • Modalità di lettura: se le risposte del modello sono altamente scorrevoli, significa che il sistema di intelligenza artificiale segue le regole grammaticali e usa un vocabolario appropriato. Un contesto coerente in tutto il testo migliora la leggibilità e la comprensione. Viceversa, i punteggi di bassa scorrevolezza indicano errori grammaticali e formulazioni non appropriate, che rendono il testo meno adatto per le applicazioni pratiche.  
  • Scale (Scala):
    • 1 = "esitante" indica errori grammaticali e formulazioni non appropriate, che rendono il testo meno adatto per le applicazioni pratiche.  
    • 5 = "scorrevolezza perfetta" indica che il sistema di intelligenza artificiale segue le regole grammaticali e usa il vocabolario appropriato. Un contesto coerente in tutto il testo migliora la leggibilità e la comprensione.

Similarity

La somiglianza quantifica l'analogia tra una frase (o un documento) di dati reali di riferimento e la frase di stima generata da un modello di intelligenza artificiale. Il punteggio viene calcolato valutando prima gli embedding a livello di frase sia per i dati reali di riferimento che per la previsione del modello. Gli embedding sono rappresentazioni vettoriali ad alta dimensionalità delle frasi, di cui catturano il significato semantico e il contesto.

  • Casi d'uso: quando si vuole valutare in modo obiettivo le prestazioni di un modello di intelligenza artificiale (per le attività di generazione di testo in cui si ha accesso alle risposte di dati reali di riferimento desiderate). La somiglianza ADA consente di confrontare il testo generato con il contenuto desiderato.
  • Modalità di lettura: il punteggio assegnato alle risposte dipende dall'analogia alla risposta di dati reali di riferimento e viene calcolato acquisendo le stesse informazioni e lo stesso significato della risposta di dati reali di riferimento per la domanda specificata. Un punteggio di somiglianza ADA elevato indica che la stima del modello è contestualmente simile ai dati reali di riferimento, ovvero i risultati sono accurati e pertinenti. Al contrario, un punteggio di somiglianza ADA basso implica una mancata corrispondenza o una divergenza tra la stima e i dati reali di riferimento, con potenziali imprecisioni o carenze nelle prestazioni del modello.
  • Scale (Scala):
    • 1 = "mancata equivalenza" indica una mancata corrispondenza o una divergenza tra la stima e i dati reali di riferimento effettivi, con potenziali imprecisioni o carenze nelle prestazioni del modello.
    • 5 = "equivalenza perfetta" indica che la stima del modello è contestualmente simile ai dati reali di riferimento, ovvero i risultati sono accurati e pertinenti.

Passaggi successivi