Passaggio 5. Identificare la causa radice dei problemi di qualità

Articolo
10/16/2024

flusso di lavoro con passaggio di iterazione evidenziato

Per il codice di esempio in questa sezione, vedere il repository GitHub.

Tempo previsto: 60 minuti.

Requisiti

I risultati della valutazione del POC sono disponibili in MLflow. Se è stato seguito il passaggio 4. Valutare la qualità di POC, i risultati sono disponibili in MLflow.
Tutti i requisiti dei passaggi precedenti.

Panoramica

Le cause più probabili dei problemi di qualità sono i passaggi di recupero e generazione. Per determinare dove concentrarsi per la prima volta, usare l'output dei giudici LLM della valutazione dell'agente Mosaic AI eseguiti nel passaggio precedente per identificare la causa radice più frequente che influisce sulla qualità dell'app.

Ogni riga del set di valutazione viene contrassegnata come segue:

Valutazione complessiva: riuscito o errore.
Causa radice: Improve Retrieval o Improve Generation.
Razionale della causa radice: breve descrizione del motivo per cui è stata selezionata la causa radice.

Istruzioni

L'approccio dipende dal fatto che il set di valutazione contenga le risposte di base alle domande. Queste risposte vengono archiviate in expected_response. Se expected_response è disponibile, usare la tabella Analisi della causa radice della tabella se la verità è disponibile. In caso contrario, usare la tabella Analisi della causa radice della tabella se la verità non è disponibile.

Aprire il notebook B_quality_iteration/01_root_cause_quality_issues.
Eseguire le celle rilevanti per il caso d'uso, ad esempio se si ha o non si dispone di expected_response
Esaminare le tabelle di output per determinare la causa radice più frequente nell'applicazione
Per ogni causa radice, seguire questa procedura per eseguire il debug e identificare le possibili correzioni:
- Eseguire il debug della qualità del recupero
- Eseguire il debug della qualità della generazione

Analisi della causa radice se la verità è disponibile

Nota

Se l'utente ha etichettato la verità di base per cui recuperare il documento per ogni domanda, è facoltativamente possibile sostituire retrieval/llm_judged/chunk_relevance/precision/average con il punteggio per retrieval/ground_truth/document_recall/average.

Precisione di pertinenza blocchi	Allineamento	Correttezza	Rilevanza per la query	Riepilogo dei problemi	Causa principale	Valutazione complessiva
<50%	Errore	Errore	Errore	Il recupero è scarso.	`Improve Retrieval`	Errore
<50%	Errore	Errore	Riuscito	LLM genera una risposta pertinente, ma il recupero non è corretto. Ad esempio, LLM ignora il recupero e usa le proprie conoscenze di training per rispondere.	`Improve Retrieval`	Errore
<50%	Errore	Riuscito	Riuscito o errore	La qualità del recupero è scarsa, ma LLM ottiene comunque la risposta corretta.	`Improve Retrieval`	Errore
<50%	Riuscito	Non riuscito	Errore	La risposta è in fase di recupero, ma il recupero è scarso.	`Improve Retrieval`	Errore
<50%	Riuscito	Non riuscito	Riuscito	Risposta pertinente in base al contesto recuperato, ma il recupero potrebbe non essere correlato alla risposta prevista.	`Improve Retrieval`	Errore
<50%	Riuscito	Riuscito	Riuscito o errore	Il recupero trova informazioni sufficienti per l'LLM per rispondere correttamente.	None	Riuscito
>50%	Errore	Errore	Riuscito o errore	Allucinazione.	`Improve Generation`	Errore
>50%	Errore	Riuscito	Riuscito o errore	Allucinazione, corretta ma genera dettagli non nel contesto.	`Improve Generation`	Errore
>50%	Riuscito	Non riuscito	Errore	Buon recupero, ma LLM non fornisce una risposta pertinente.	`Improve Generation`	Errore
>50%	Riuscito	Non riuscito	Riuscito	Buon recupero e risposta pertinente, ma non corretta.	`Improve Generation`	Errore
>50%	Riuscito	Riuscito	Riuscito	Non sono presenti problemi.	None	Riuscito

Analisi della causa radice se la verità di base non è disponibile

Precisione di pertinenza blocchi	Allineamento	Rilevanza per la query	Riepilogo dei problemi	Causa principale	Valutazione complessiva
<50%	Errore	Errore	La qualità del recupero è scarsa.	`Improve Retrieval`	Errore
<50%	Errore	Riuscito	La qualità del recupero è scarsa.	`Improve Retrieval`	Errore
<50%	Riuscito	Non riuscito	La risposta è in fase di recupero, ma il recupero è scarso.	`Improve Retrieval`	Errore
<50%	Riuscito	Riuscito	Risposta rilevante in base al contesto recuperato e pertinente, ma il recupero è scarso.	`Improve Retrieval`	Riuscito
>50%	Errore	Errore	Allucinazione.	`Improve Generation`	Errore
>50%	Errore	Riuscito	Allucinazione.	`Improve Generation`	Errore
>50%	Riuscito	Non riuscito	Buon recupero e allineato, ma LLM non fornisce una risposta pertinente.	`Improve Generation`	Errore
>50%	Riuscito	Riuscito	Buon recupero e risposta pertinente. Raccogliere la verità di base per sapere se la risposta è corretta.	None	Riuscito

Passaggio successivo

Per eseguire il debug dei problemi identificati, vedere le pagine seguenti:

Condividi tramite