Abilitare la misurazione: supporto dell'infrastruttura
Questo articolo illustra in dettaglio l'infrastruttura necessaria per misurare la qualità e il modo in cui Databricks la fornisce. La misurazione della qualità non è semplice e richiede un investimento significativo nell'infrastruttura.
Log di traccia dettagliati
Il nucleo della logica dell'applicazione RAG è una serie di passaggi nella catena. Per valutare ed eseguire il debug della qualità, è necessario implementare la strumentazione che tiene traccia degli input e degli output della catena, insieme a ogni passaggio della catena e agli input e output associati. La strumentazione inserita dovrebbe funzionare allo stesso modo nello sviluppo e nella produzione.
In Databricks, MLflow Tracing offre questa funzionalità. Con MLflow Trace Logging è possibile instrumentare il codice nell'ambiente di produzione e get le stesse tracce durante lo sviluppo e l'ambiente di produzione. Le tracce di produzione vengono registrate come parte del processo di inferenza Table.
Interfaccia utente della revisione degli stakeholder
Spesso, gli sviluppatori, non sono esperti di dominio nel contenuto dell'applicazione in fase di sviluppo. Per raccogliere feedback da esperti umani che possono valutare la qualità output dell'applicazione, è necessaria un'interfaccia che consente di interagire con le prime versioni dell'applicazione e fornire feedback dettagliato. Inoltre, è necessario un modo per caricare output di applicazioni specifici perché gli stakeholder ne possano valutare la qualità.
Questa interfaccia deve tenere traccia degli output dell'applicazione e del feedback associato in modo strutturato, archiviando la traccia completa dell'applicazione e il feedback dettagliato in un tabledi dati.
In Databricks l'app Agent Evaluation Review offre questa funzionalità.
Framework delle metriche di qualità, costi e latenza
È necessario un modo per definire le metriche che misurano in modo completo la qualità di ogni componente della catena e dell'applicazione end-to-end. Idealmente, il framework fornirà una suite di metriche standard predefinite, oltre a supportare la personalizzazione, in modo da poter aggiungere metriche che testano aspetti specifici della qualità univoci per l'azienda.
In Databricks, Agent Evaluation usa modelli di giudice LLM ospitati per offrire un'implementazione predefinita per le metriche di qualità, costi e latenza necessarie.
Harness di valutazione
È necessario un modo per get in modo rapido ed efficiente gli output della catena per ogni domanda nella valutazione sete quindi valutare ogni output sulle metriche pertinenti. Questo harness deve essere fatto nel modo più efficiente possibile, visto che si eseguirà la valutazione dopo ogni esperimento rivolto a migliorare la qualità.
In Databricks, Agent Evaluation fornisce un'harness di valutazione integrata con MLflow.
Gestione della valutazione set
La valutazione set è una vita, respirando set di domande che si update iterativamente nel corso del ciclo di vita di sviluppo e produzione dell'applicazione.
In Databricks è possibile gestire la valutazione set come Delta Table. Durante la valutazione con MLflow, MLflow registra automaticamente uno snapshot della versione della valutazione set usata.
Framework di rilevamento dell'esperimento
Durante lo sviluppo di applicazioni si proveranno molti esperimenti diversi. Un framework di rilevamento consente di registrare ogni esperimento e di tenere traccia delle metriche in confronto ad altri esperimenti.
In Databricks, MLflow offre funzionalità di rilevamento degli esperimenti.
Framework di parametrizzazione della catena
Molti esperimenti che si cercano di fare richiedono di mantenere costante il codice della catena mentre si esegue l'iterazione su diversi parameters utilizzati dal codice. È necessario un framework che consenta di eseguire questa operazione.
In Databricks, la configurazione del modello MLflow offre queste funzionalità.
Monitoraggio online
Dopo la distribuzione, è necessario un modo per monitorare l'integrità dell'applicazione e la qualità, i costi e la latenza in corso.
In Databricks, Model Serving fornisce il monitoraggio dell'integrità delle applicazioni, mentre il monitoraggio di Lakehouse fornisce output in corso a un dashboard e monitora qualità, costi e latenza.