Flusso di lavoro di sviluppo basato sulla valutazione
Questa sezione illustra il flusso di lavoro di sviluppo consigliato di Databricks per la compilazione, il test e la distribuzione di un'applicazione RAG di alta qualità: sviluppo basato sulla valutazione. Questo flusso di lavoro si basa sulle procedure consigliate del team di Mosaic Research per la creazione e la valutazione di applicazioni RAG di alta qualità. Databricks consiglia il flusso di lavoro basato sulla valutazione seguente:
- Definire i requisiti.
- Raccogliere commenti e suggerimenti degli stakeholder su un modello di verifica rapido( POC).
- Valutare la qualità del modello di verifica.
- Diagnosticare e correggere in modo iterativo i problemi di qualità.
- Distribuzione in produzione.
- Monitorare nell'ambiente di produzione.
Esistono due concetti di base nello sviluppo basato sulla valutazione:
Metriche: definizione dei mezzi di alta qualità.
Analogamente a come si impostano gli obiettivi aziendali ogni anno, è necessario definire i mezzi di alta qualità per il caso d'uso. Mosaic AI Agent Evaluation fornisce un set suggerito di metriche da usare, la più importante delle quali è l'accuratezza o la correttezza delle risposte: l'applicazione RAG fornisce la risposta corretta?
Set di valutazione: misurazione obiettivo delle metriche.
Per misurare in modo obiettivo la qualità, è necessario un set di valutazione, che contiene domande con risposte valide note convalidate dagli esseri umani. Questa guida illustra il processo di sviluppo e affinamento iterativo di questo set di valutazione.
L'ancoraggio rispetto alle metriche e a un set di valutazione offre i vantaggi seguenti:
- È possibile perfezionare in modo iterativo e sicuro la qualità dell'applicazione durante lo sviluppo, senza più indovinare se una modifica ha comportato un miglioramento.
- L'allineamento con gli stakeholder aziendali sull'idoneità dell'applicazione per la produzione diventa più semplice quando si può affermare con sicurezza, "sappiamo che l'applicazione risponde alle domande più critiche per il nostro business correttamente e non allucina".
Per una procedura dettagliata che illustra il flusso di lavoro basato sulla valutazione, iniziare con Prerequisiti: Raccogliere i requisiti.