Obtener comentarios sobre la calidad de una aplicación agente

Artículo
10/29/2024

Importante

Esta característica está en versión preliminar pública.

En este artículo se muestra cómo utilizar la aplicación de revisión de Databricks para recopilar comentarios de revisores humanos sobre la calidad de su aplicación agente. Abarca lo siguiente:

Cómo implementar la aplicación de revisión.
Cómo usan los revisores la aplicación para proporcionar comentarios sobre las respuestas de la aplicación agente.
Cómo los expertos pueden revisar los chats registrados para proporcionar sugerencias para mejorar y otros comentarios mediante la aplicación.

¿Qué ocurre en las evaluaciones humanas?

La aplicación de revisión de Databricks almacena provisionalmente el LLM en un entorno en el que las partes interesadas expertos pueden interactuar con ella; es decir, tener una conversación, formular preguntas, proporcionar comentarios, etc. La aplicación de revisión registra todas las preguntas, respuestas y comentarios en una tabla de inferencia para poder analizar aún más el rendimiento de LLM. De este modo, la aplicación de revisión ayuda a garantizar la calidad y seguridad de las respuestas que proporciona la aplicación.

Las partes interesadas pueden chatear con el bot de aplicación y proporcionar comentarios sobre esas conversaciones o proporcionar comentarios sobre registros históricos, seguimientos mantenidos o salidas del agente.

Requisitos

Las tablas de inferencia deben estar habilitadas en el punto de conexión en el que atienda el agente.
Cada revisor humano debe tener acceso al área de trabajo de revisión de la aplicación o sincronizarse con la cuenta de Databricks con SCIM. Consulte la sección siguiente Configuración de permisos para usar la aplicación de revisión.
Los desarrolladores deben instalar el SDK de databricks-agents para configurar los permisos y la aplicación de revisión.
```
%pip install databricks-agents
dbutils.library.restartPython()
```

Configuración de permisos para usar la aplicación de revisión

Nota:

Los revisores humanos no requieren acceso al área de trabajo para usar la aplicación de revisión.

Puede conceder acceso a la aplicación de revisión a cualquier usuario de la cuenta de Databricks, incluso si no tienen acceso al área de trabajo que contiene la aplicación de revisión.

Para los usuarios que no tienen acceso al área de trabajo, un administrador de cuentas usa el aprovisionamiento SCIM de nivel de cuenta para sincronizar usuarios y grupos automáticamente desde el proveedor de identidades a su cuenta de Azure Databricks. También puede registrar manualmente estos usuarios y grupos para concederles acceso al configurar identidades en Databricks. Consulte Sincronización de usuarios y grupos desde Microsoft Entra ID.
Para los usuarios que ya tienen acceso al área de trabajo que contiene la aplicación de revisión, no se requiere ninguna configuración adicional.

En el ejemplo de código siguiente se muestra cómo conceder permiso a los usuarios a la aplicación de revisión de un agente. El users parámetro toma una lista de direcciones de correo electrónico.

from databricks import agents

# Note that <user_list> can specify individual users or groups.
agents.set_permissions(model_name=<model_name>, users=[<user_list>], permission_level=agents.PermissionLevel.CAN_QUERY)

Para revisar un registro de chat, un usuario debe tener el CAN_REVIEW permiso .

Implementación de la aplicación de revisión

Al implementar un agente mediante agents.deploy(), la aplicación de revisión se habilita e implementa automáticamente. La salida del comando muestra la dirección URL de la aplicación de revisión. Para obtener información sobre la implementación de un agente, consulte Implementar un agente para una aplicación de IA generativa.

vínculo para revisar la aplicación desde la salida del comando del cuaderno

Si pierde el vínculo a la implementación, puede encontrarlo mediante list_deployments().

from databricks import agents

deployments = agents.list_deployments()
deployments

Revisión de la interfaz de usuario de la aplicación

Para abrir la aplicación de revisión, haga clic en la dirección URL proporcionada. La interfaz de usuario de la aplicación de revisión tiene tres pestañas en la barra lateral izquierda:

Instrucciones Muestra instrucciones para el revisor. Consulte Proporcionar instrucciones a los revisores.
Chats para revisar Muestra los registros de las interacciones de los revisores con la aplicación para que los expertos se evalúen. Vea Revisión de expertos de registros de las interacciones de otros usuarios con la aplicación.
Probar el bot Permite a los revisores chatear con la aplicación y enviar revisiones de sus respuestas. Consulta Chatear con la aplicación y enviar revisiones.

Al abrir la aplicación de revisión, aparece la página de instrucciones.

Para chatear con el bot, haga clic en Iniciar revisión o seleccione Probar el bot en la barra lateral izquierda. Consulta Chatear con la aplicación y enviar revisiones para obtener más detalles.
Para revisar los registros de chat que se han puesto a disposición de su revisión, seleccione Chats para revisarlos en la barra lateral. Vea Revisión experta de registros de las interacciones de otros usuarios con la aplicación para obtener más información. Para obtener información sobre cómo hacer que los registros de chat estén disponibles en la aplicación de revisión, consulte Hacer que los revisores expertos evalúen los registros de chat.

revisar la pantalla de apertura de la aplicación

Proporcionar instrucciones a los revisores

Para proporcionar texto personalizado para las instrucciones que se muestran para los revisores, use el código siguiente:

from databricks import agents

agents.set_review_instructions(uc_model_name, "Thank you for testing the bot. Use your domain expertise to evaluate and give feedback on the bot's responses, ensuring it aligns with the needs and expectations of users like yourself.")
agents.get_review_instructions(uc_model_name)

Captura de pantalla de las instrucciones de la aplicación de revisión especificadas en el ejemplo de Python.

Chatear con la aplicación y enviar revisiones

Para chatear con la aplicación y enviar revisiones:

Haga clic en Probar el bot en la barra lateral izquierda.
Escriba su pregunta en el cuadro y presione Devolver o Entrar en el teclado, o haga clic en la flecha del cuadro. La aplicación muestra su respuesta a la pregunta y los orígenes que usó para encontrar la respuesta.
Revise la respuesta de la aplicación y seleccione Sí, No o No lo sé.
La aplicación solicita información adicional. Active las casillas adecuadas o escriba sus comentarios en el campo proporcionado.
También puede editar la respuesta directamente para proporcionar una mejor respuesta. Para editar la respuesta, haga clic en Editar respuesta, realice los cambios en el cuadro de diálogo y haga clic en Guardar, como se muestra en el vídeo siguiente.
Haga clic en Listo para guardar los comentarios.
Siga haciendo preguntas para proporcionar comentarios adicionales.

En el diagrama siguiente se muestra este flujo de trabajo:

Con la aplicación de revisión, el revisor chatea con la aplicación agente.
Con la aplicación de revisión, el revisor proporciona comentarios sobre las respuestas de la aplicación.
Todas las solicitudes, respuestas y comentarios se registran en tablas de inferencia.

Ejecute la aplicación de revisión en la que los expertos chatean con la aplicación agente y proporcionen comentarios.

Poner los registros de chat a disposición de los revisores expertos para su evaluación

Cuando un usuario interactúa con la aplicación mediante la API REST o la aplicación de revisión, todas las solicitudes, respuestas y comentarios adicionales se guardan en tablas de inferencia. Las tablas de inferencia se encuentran en el mismo catálogo y esquema del catálogo de Unity donde se registró el modelo y se denominan <model_name>_payload, <model_name>_payload_assessment_logs y <model_name>_payload_request_logs. Para obtener más información sobre estas tablas, incluidos los esquemas, consulte Tablas de inferencia mejoradas por agente.

Para cargar estos registros en la aplicación de revisión para su evaluación por parte de revisores expertos, primero debe encontrar el request_id y habilitar las revisiones para que request_id sea de la siguiente manera:

Busque los elementos request_id que se van a revisar de la tabla de inferencia <model_name>_payload_request_logs. La tabla de inferencia se encuentra en el mismo catálogo y esquema del catálogo de Unity donde se registró el modelo.

Use código similar al siguiente para cargar los registros de revisión en la aplicación de revisión:

from databricks import agents

agents.enable_trace_reviews(
  model_name=model_fqn,
  request_ids=[
      "52ee973e-0689-4db1-bd05-90d60f94e79f",
      "1b203587-7333-4721-b0d5-bba161e4643a",
      "e68451f4-8e7b-4bfc-998e-4bda66992809",
  ],
)

La celda de resultado incluye un vínculo a la aplicación de revisión con los registros seleccionados cargados para su revisión.

Revisión de la aplicación con registros de chat cargados para la revisión de expertos

Revisión de expertos de registros de las interacciones de otros usuarios con la aplicación

Para revisar los registros de los chats anteriores, los registros deben haberse habilitado para su revisión. Consulte Hacer que los revisores expertos evalúen los registros de chat.

En la barra lateral izquierda de la aplicación de revisión, seleccione Chats para revisar. Se muestran las solicitudes habilitadas.
Haga clic en una solicitud para mostrarla para su revisión.
Revise la solicitud y la respuesta. La aplicación también muestra los orígenes que usó como referencia. Puede hacer clic en ellos para revisar la referencia y proporcionar comentarios sobre la relevancia del origen.
Para proporcionar comentarios sobre la calidad de la respuesta, seleccione Sí, No o No lo sé.
La aplicación solicita información adicional. Active las casillas adecuadas o escriba sus comentarios en el campo proporcionado.
También puede editar la respuesta directamente para proporcionar una mejor respuesta. Para editar la respuesta, haga clic en Editar respuesta, realice los cambios en el cuadro de diálogo y haga clic en Guardar. Consulta Chatear con la aplicación y enviar revisiones para ver un vídeo que muestra el proceso.
Haga clic en Listo para guardar los comentarios.

En el diagrama siguiente se muestra este flujo de trabajo:

Con la aplicación de revisión o la aplicación personalizada, los revisores chatearán con la aplicación agente.
Todas las solicitudes y respuestas se registran en tablas de inferencia.
El desarrollador de aplicaciones usa enable_trace_reviews([request_id]) (donde request_id procede de la tabla de inferencia <model_name>_payload_request_logs) para publicar registros de chat para revisar la aplicación.
Con la aplicación de revisión, los registros de opiniones de expertos y proporcionan comentarios. Los comentarios de expertos se registran en tablas de inferencia.

Ejecute una revisión de seguimiento en la que los revisores interactúen con la aplicación de revisión o la API de REST para proporcionar comentarios.

Nota:

Si tiene habilitado Azure Storage Firewall, póngase en contacto con el equipo de cuentas de Azure Databricks para habilitar las tablas de inferencia para los puntos de conexión.

Use `mlflow.evaluate()` en la tabla de registros de solicitudes

En el cuaderno siguiente se muestra cómo usar los registros de la aplicación de revisión como entrada para una ejecución de evaluación mediante mlflow.evaluate().

Ejecución de la evaluación en el cuaderno de registros de solicitudes

Obtener el cuaderno

Compartir a través de

Obtener comentarios sobre la calidad de una aplicación agente

¿Qué ocurre en las evaluaciones humanas?

Requisitos

Configuración de permisos para usar la aplicación de revisión

Implementación de la aplicación de revisión

Revisión de la interfaz de usuario de la aplicación

Proporcionar instrucciones a los revisores

Chatear con la aplicación y enviar revisiones

Poner los registros de chat a disposición de los revisores expertos para su evaluación

Revisión de expertos de registros de las interacciones de otros usuarios con la aplicación

Use `mlflow.evaluate()` en la tabla de registros de solicitudes

Ejecución de la evaluación en el cuaderno de registros de solicitudes

Comentarios

Recursos adicionales

Compartir a través de

Obtener comentarios sobre la calidad de una aplicación agente

¿Qué ocurre en las evaluaciones humanas?

Requisitos

Configuración de permisos para usar la aplicación de revisión

Implementación de la aplicación de revisión

Revisión de la interfaz de usuario de la aplicación

Proporcionar instrucciones a los revisores

Chatear con la aplicación y enviar revisiones

Poner los registros de chat a disposición de los revisores expertos para su evaluación

Revisión de expertos de registros de las interacciones de otros usuarios con la aplicación

Use mlflow.evaluate() en la tabla de registros de solicitudes

Ejecución de la evaluación en el cuaderno de registros de solicitudes

Comentarios

Recursos adicionales

Use `mlflow.evaluate()` en la tabla de registros de solicitudes