Condividi tramite


Passaggio 3. Curare un set di valutazione dal feedback degli stakeholder

flusso di lavoro con set di valutazione evidenziato

Per il codice di esempio in questa sezione, vedere il repository GitHub.

Tempo previsto: 10-60 minuti. Il tempo varia in base alla qualità delle risposte fornite dagli stakeholder. Se le risposte sono disordinate o contengono molte query irrilevanti, sarà necessario dedicare più tempo a filtrare e ripulire i dati.

Panoramica e risultato previsto

Questo passaggio avvierà il bootstrap di un set di valutazione con il feedback fornito dagli stakeholder usando l'app di revisione. Si noti che è possibile avviare un set di valutazione con le sole domande, quindi anche se gli stakeholder hanno solo chattato con l'applicazione e non hanno fornito un feedback, è possibile seguire questo passaggio.

Per lo schema del set di valutazione dell'agente, vedere Schema di input di valutazione dell'agente. I campi di questo schema sono citati nel resto di questa sezione.

Al termine di questo passaggio, si avrà un set di valutazione che contiene quanto segue:

  • Richieste con pollice in su 👍:
    • request: come inserito dall'utente.
    • expected_response: risposta modificata dall'utente. Se l'utente non ha modificato la risposta, la risposta generata dal modello.
  • Richieste con pollice in giù 👎:
    • request: come inserito dall'utente.
    • expected_response: risposta modificata dall'utente. Se l'utente non ha modificato la risposta, la risposta è null.
  • Richieste senza feedback (nessun pollice in su 👍 o in giù 👎)
    • request: come inserito dall'utente.

Per tutte le richieste, se l'utente seleziona pollice in su 👍 per un blocco da retrieved_context, il doc_uri di tale blocco viene incluso in expected_retrieved_context per la domanda.

Importante

Databricks raccomanda che il set di valutazione contenga almeno 30 domande per iniziare. Leggere l'approfondimento sui set di valutazione per saperne di più su cosa sia un “buon” set di valutazione.

Requisiti

  • Gli stakeholder hanno usato il modello di verifica (PoC) e fornito feedback.
  • Tutti i requisiti dei passaggi precedenti.

Istruzioni

  1. Aprire il notebook 04_create_evaluation_set e fare clic su Esegui tutto.
  2. Esaminare il set di valutazione per comprendere i dati inclusi. È necessario verificare che il set di valutazione contenga un set rappresentativo e complesso di domande. Modificare il set di valutazione in base alle esigenze.
  3. Per impostazione predefinita, il set di valutazione viene salvato nella tabella Delta configurata nel EVALUATION_SET_FQN del notebook di 00_global_config.

Passaggio successivo

Ora che si dispone di un set di valutazione, usarlo per valutare la qualità, il costo e la latenza dell'app PoC. Vedere Passaggio 4. Valutare la qualità del modello di verifica.

< Precedente: Passaggio 2. Distribuire poC e raccogliere commenti e suggerimenti

Successivo: Passaggio 4. Valutare la qualità del modello di verifica >