Condividi tramite


Utilizzare benchmark in uno spazio Genie

Questo articolo illustra come utilizzare i benchmark per valutare l’accuratezza dello spazio Genie.

Panoramica

I benchmark consentono di creare un set di domande di test che è possibile eseguire per valutare l’accuratezza complessiva della risposta di Genie. Un set ben progettato di benchmark che copre le domande degli utenti più frequenti aiuta a valutare l’accuratezza dello spazio Genie durante la affinamento.

esempi di benchmark con accuratezza riportata per nove domande.

Aggiungere domande sul benchmark

Le domande di benchmark devono riflettere diversi modi di formulazione delle domande comuni poste dagli utenti. È possibile usarli per controllare la risposta di Genie alle variazioni nelle formulazioni delle domande o in formati di domanda diversi.

Quando si crea una domanda di benchmark, è possibile includere facoltativamente una query SQL il cui set di risultati è la risposta corretta. Durante le esecuzioni del benchmark, l’accuratezza viene valutata confrontando il set di risultati dalla query SQL a quello generato da Genie.

Per aggiungere un caso alla coda, procedi come descritto di seguito:

  1. Fare clic sulla Icona benchmark barra laterale sinistra in uno spazio Genie.

  2. Fare clic sulla scheda Domande . Fare quindi clic su Aggiungi benchmark.

  3. Nel campo Domanda immettere una domanda di benchmark da testare.

  4. (Facoltativo) Immettere l’istruzione SQL che risponde accuratamente alla domanda immessa.

    Nota

    Questo passaggio è consigliato. Solo le domande che includono questa istruzione SQL di esempio possono essere valutate automaticamente per l’accuratezza. Per eventuali domande che non includono una risposta SQL è necessario assegnare un punteggio alla revisione manuale.

  5. (Facoltativo) Fare clic su Esegui per eseguire la query e visualizzare i risultati.

  6. Al termine della modifica, fare clic su Aggiungi benchmark.

  7. Per aggiornare una domanda dopo il salvataggio, fare clic sull’icona a Icona Modifica forma di matita per aprire la finestra di dialogo “Aggiorna domanda” .

Utilizzare i benchmark per testare formulazioni alternative alle domande

Quando si valuta l’accuratezza dello spazio Genie, è importante strutturare i test per riflettere scenari realistici. Gli utenti possono porre la stessa domanda in modi diversi. Databricks consiglia di aggiungere più formulazioni della stessa domanda e di utilizzare lo stesso esempio SQL nei test di benchmark per valutare completamente l’accuratezza. La maggior parte degli spazi Genie deve includere 2 - 4 formulazioni della stessa domanda.

Eseguire domande sul benchmark

Gli utenti con almeno le autorizzazioni “CAN EDIT” in uno spazio Genie possono creare un’esecuzione di benchmark in qualsiasi momento, che valuterà automaticamente in tutte le domande di benchmark. Per valutare ogni domanda di benchmark, la domanda verrà prima inoltrata a Genie, quindi confrontare i risultati genie con il benchmark. A ogni benchmark viene applicata una delle etichette seguenti:

  • Buono: le risposte sono contrassegnate con questa etichetta quando il risultato della query generata da Genie corrisponde ai risultati della risposta SQL fornita. Quando una risposta è contrassegnata come Good, significa che i valori di riga corrispondono esattamente, indipendentemente dall’ordinamento o dai nomi di colonna.
  • Revisione necessaria: le risposte sono contrassegnate con questa etichetta quando Genie non è in grado di valutare la correttezza o quando i risultati delle query generati da Genie non corrispondono ai risultati della risposta SQL fornita. Se sono presenti modifiche impreviste a una dimensione di tabelle nella risposta generata o nella risposta SQL fornita, la domanda potrebbe essere contrassegnata per la revisione. Tutte le domande di benchmark che non includono una risposta SQL devono essere esaminate manualmente.
  • Bad: le risposte non vengono mai etichettate automaticamente come Bad. Se i risultati della query generati da Genie non corrispondono al set di risultati della risposta SQL fornita, la domanda viene contrassegnata come Verifica esigenze. Quando si esaminano questi benchmark, è possibile contrassegnare un risultato come Non valido se non si ritiene che i risultati della query generati da Genie rispondano alla domanda.

Per eseguire tutte le domande sul benchmark:

  1. Fare clic su Icona benchmarkBenchmark nella barra laterale Genie accanto al lato sinistro dello schermo.
  2. Fare clic su Esegui benchmark per avviare l’esecuzione del test.

Nota

Se si chiude questa pagina, l’esecuzione del benchmark viene sospesa automaticamente. È possibile riprendere il test quando si riapre la pagina.

Valutazioni del benchmark di accesso

È possibile accedere a tutte le valutazioni di benchmark per tenere traccia dell’accuratezza nello spazio Genie nel tempo. Quando si fa clic sulla barra Icona benchmark laterale sinistra in uno spazio Genie, nella scheda Valutazioni viene visualizzato un elenco di esecuzioni di valutazione con timestamp. Se non vengono trovate esecuzioni di valutazione, consultare la sezione Aggiungere domande sul benchmark o Eseguire domande sul benchmark.

Schermata Valutazioni, come descritto nel testo seguente.

La scheda valutazioni mostra una panoramica delle valutazioni e delle relative prestazioni riportate nelle categorie seguenti:

Nome valutazione: timestamp che indica quando si è verificata un’esecuzione di valutazione. Fare clic sul timestamp per visualizzare i dettagli per la valutazione. Stato di esecuzione: indica se la valutazione è stata completata, sospesa o non riuscita. Se un’esecuzione di valutazione include domande di benchmark che non hanno risposte SQL predefinite, viene contrassegnata per la revisione in questa colonna. Accuratezza: una valutazione numerica dell’accuratezza in tutte le domande di benchmark. Per le esecuzioni di valutazione che richiedono una revisione manuale, una misura di accuratezza viene visualizzata solo dopo la revisione di tali domande. Creato da: indica il nome dell’utente che ha eseguito la valutazione.

Esaminare le singole valutazioni

È possibile esaminare le singole valutazioni per ottenere un’analisi dettagliata di ogni risposta. È possibile modificare la valutazione per qualsiasi domanda e aggiornare tutti gli elementi che richiedono una revisione manuale.

Per esaminare le singole valutazioni:

  1. Fare clic su Icona benchmarkBenchmark nella barra laterale Genie accanto al lato sinistro dello schermo.

  2. Fare clic sul timestamp per qualsiasi valutazione nella colonna Nome valutazione per aprire una visualizzazione dettagliata dell’esecuzione del test.

    Schermata che mostra i risultati di una singola esecuzione di valutazione. Tutte le domande sono elencate a sinistra. Se applicabile, le singole domande vengono visualizzate a destra con l’output del modello e l’output della verità di base.

  3. Fare clic su una domanda accanto al lato sinistro della schermata per visualizzare i dettagli associati. Utilizzare la schermata dei dettagli di valutazione per eseguire i passaggi successivi.

  4. Esaminare e confrontare la risposta di output del modello con la risposta verità terra.

    Nota

    I risultati di queste risposte vengono visualizzati nei dettagli di valutazione per una settimana. Dopo una settimana, i risultati non sono più visibili. L’istruzione SQL generata e l’istruzione SQL di esempio rimangono.

  5. Icona Modifica Fare clic sull’etichetta per modificare la valutazione.

    Contrassegnare ogni risultato come Buono o Negativo per ottenere un punteggio accurato per questa valutazione.