Passaggio 5 (generazione). Come eseguire il debug della qualità della generazione
Questa pagina descrive come identificare la causa radice dei problemi di generazione. Usare questa pagina quando l'analisi della causa radice indica una causa radice Improve Generation
.
Anche con il recupero ottimale, se il componente LLM di una catena RAG non può utilizzare in modo efficace il contesto recuperato per generare risposte accurate, coerenti e pertinenti, la qualità finale dell'output risente. Alcuni dei modi in cui i problemi relativi alla qualità della generazione possono apparire sono allucinazioni, incoerenze o mancata risoluzione concisa della query dell'utente.
Istruzioni
Per risolvere i problemi di qualità della generazione, seguire questa procedura:
- Aprire il notebook B_quality_iteration/01_root_cause_quality_issues.
- Usare le query per caricare le tracce MLflow dei record con problemi di qualità di generazione.
- Per ogni record, esaminare manualmente la risposta generata e confrontarla con il contesto recuperato e la risposta alla verità.
- Cercare modelli o problemi comuni tra le query con qualità di bassa generazione. Ad esempio:
- Generazione di informazioni non presenti nel contesto recuperato.
- Generazione di informazioni non coerenti con il contesto recuperato (allucinazione).
- Impossibile risolvere direttamente la query dell'utente in base al contesto recuperato fornito.
- Generazione di risposte eccessivamente dettagliate, difficili da comprendere o mancanza di coerenza logica.
- In base al problema identificato, ipotizzare potenziali cause radice e correzioni corrispondenti. Per indicazioni, vedere Motivi comuni per la scarsa qualità della generazione.
- Seguire la procedura descritta in Implementare e valutare le modifiche per implementare e valutare una potenziale correzione. Ciò potrebbe comportare la modifica della catena RAG ( ad esempio, la modifica del modello di richiesta o il tentativo di un LLM diverso) o la pipeline di dati (ad esempio, la modifica della strategia di suddivisione in blocchi per fornire più contesto).
- Se la qualità della generazione non è ancora soddisfacente, ripetere i passaggi 4 e 5 per la correzione più promettente successiva fino a raggiungere le prestazioni desiderate.
- Eseguire di nuovo l'analisi della causa radice per determinare se la catena complessiva presenta cause radice aggiuntive che devono essere risolte.
Motivi comuni per la scarsa qualità della generazione
Nella tabella seguente sono elencati i passaggi di debug e le possibili correzioni per i problemi di generazione comuni. Le correzioni vengono classificate in base al componente:
- Configurazione della catena
- Codice della catena
Il componente definisce i passaggi da seguire nel passaggio implementare e valutare le modifiche .
Importante
Databricks consiglia di usare la progettazione prompt per eseguire l'iterazione sulla qualità degli output dell'app. La maggior parte dei passaggi seguenti usa la progettazione dei prompt.
Problema di generazione | Procedura di debug | Potenziale correzione |
---|---|---|
Le informazioni generate non sono presenti nel contesto recuperato (ad esempio allucinazioni). | - Confrontare le risposte generate al contesto recuperato per identificare le informazioni allucinate. - Valutare se determinati tipi di query o contesto recuperato sono più soggetti a allucinazioni. |
- Configurazione della catena Aggiornare il modello di richiesta per enfatizzare la dipendenza dal contesto recuperato. - Configurazione della catena Usare un LLM più idoneo. - Codice della catena Implementare un passaggio di verifica o di fact-checking post-generation. |
Non è possibile risolvere direttamente la query dell'utente o fornire risposte eccessivamente generiche | - Confrontare le risposte generate alle query utente per valutare la pertinenza e la specificità. - Controllare se determinati tipi di query comportano il recupero del contesto corretto, ma l'LLM produce un output di bassa qualità. |
- Configurazione della catena Migliorare il modello di richiesta per incoraggiare risposte dirette e specifiche. - Configurazione della catena Recuperare un contesto più mirato migliorando il processo di recupero. - Codice della catena Classificare nuovamente i risultati di recupero per inserire prima i blocchi più rilevanti, li fornisce solo all'LLM. - Configurazione della catena Usare un LLM più idoneo. |
Le risposte generate sono difficili da comprendere o mancanza di flusso logico | - Valutare l'output per il flusso logico, la correttezza grammaticale e la comprensione. - Analizzare se l'incoerenza si verifica più spesso con determinati tipi di query o quando vengono recuperati determinati tipi di contesto. |
- Configurazione della catena Modificare il modello di richiesta per incoraggiare una risposta coerente e ben strutturata. - Configurazione della catena Fornire più contesto all'LLM recuperando blocchi pertinenti aggiuntivi. - Configurazione della catena Usare un LLM più idoneo. |
Le risposte generate non sono nel formato o nello stile desiderato | - Confrontare l'output con le linee guida per il formato e lo stile previsti. - Valutare se è più probabile che determinati tipi di query o contesto recuperato generino deviazioni di formato o stile. |
- Configurazione della catena Aggiornare il modello di richiesta per specificare il formato e lo stile di output desiderati. - Codice della catena Implementare un passaggio di post-elaborazione per convertire la risposta generata nel formato desiderato. - Codice della catena Aggiungere un passaggio per convalidare la struttura e lo stile di output e restituire una risposta di fallback, se necessario. - Configurazione della catena Usare un LLM ottimizzato per fornire output in un formato o uno stile specifici. |
Passaggio successivo
Se sono stati identificati anche problemi con la qualità del recupero, continuare con il Passaggio 5 (recupero). Come eseguire il debug della qualità del recupero.
Se si ritiene di aver risolto tutti i problemi identificati, continuare con il passaggio 6. Apportare e valutare le correzioni di qualità nell'agente di intelligenza artificiale.
< Precedente: Passaggio 5.1. Qualità del recupero di debug
Successivo: Passaggio 6. Risolvere in modo iterativo i problemi di qualità >