Compartir a través de


Obtener comentarios sobre la calidad de una aplicación agente

Importante

Esta característica está en versión preliminar pública.

En este artículo se muestra cómo utilizar la aplicación de revisión de Databricks para recopilar comentarios de revisores humanos sobre la calidad de su aplicación agente. Abarca lo siguiente:

  • Cómo implementar la aplicación de revisión.
  • Cómo usan los revisores la aplicación para proporcionar comentarios sobre las respuestas de la aplicación agente.
  • Cómo los expertos pueden revisar los chats registrados para proporcionar sugerencias para mejorar y otros comentarios mediante la aplicación.

¿Qué ocurre en las evaluaciones humanas?

La aplicación de revisión de Databricks pone en escena el LLM en un entorno en el que las partes interesadas expertas pueden interactuar con ella, es decir, mantener una conversación, hacer preguntas, etc. De este modo, la aplicación de revisión le permite recopilar comentarios sobre la aplicación, lo que ayuda a garantizar la calidad y la seguridad de las respuestas que proporciona.

Las partes interesadas pueden chatear con el bot de aplicación y proporcionar comentarios sobre esas conversaciones o proporcionar comentarios sobre registros históricos, seguimientos mantenidos o salidas del agente.

Requisitos

Configuración de permisos del área de trabajo de la aplicación de revisión

Si los revisores ya tienen acceso al área de trabajo que contiene la aplicación de revisión, no será necesario hacer nada.

Si los revisores aún no tuvieran acceso, los administradores de cuentas podrán usar el aprovisionamiento de SCIM de nivel de cuenta para sincronizar usuarios y grupos automáticamente desde el proveedor de identidades a la cuenta de Azure Databricks. También es posible registrar manualmente estos usuarios y grupos a medida que se configuren identidades en Databricks. Esto les permitirá incluirlos como revisores aptos. Consulte Sincronización de usuarios y grupos desde Microsoft Entra ID.

from databricks import agents

# Note that <user_list> can specify individual users or groups.
agents.set_permissions(model_name=<model_name>, users=[<user_list>], permission_level=PermissionLevel.CAN_QUERY)

Los expertos que revisen los registros de chat deben tener permisos CAN_REVIEW.

Implementación de la aplicación de revisión

Al implementar un agente mediante agents.deploy(), la aplicación de revisión se habilita e implementa automáticamente. La salida del comando muestra la dirección URL de la aplicación de revisión. Para obtener información sobre la implementación de un agente, consulte Implementar un agente para una aplicación de IA generativa.

vínculo para revisar la aplicación desde la salida del comando del cuaderno

Si pierde el vínculo a la implementación, puede encontrarlo mediante list_deployments().

from databricks import agents

deployments = agents.list_deployments()
deployments

Revisión de la interfaz de usuario de la aplicación

Para abrir la aplicación de revisión, haga clic en la dirección URL proporcionada. La interfaz de usuario de la aplicación de revisión tiene tres pestañas en la barra lateral izquierda:

Al abrir la aplicación de revisión, aparece la página de instrucciones.

revisar la pantalla de apertura de la aplicación

Proporcionar instrucciones a los revisores

Para proporcionar texto personalizado para las instrucciones que se muestran para los revisores, use el código siguiente:

from databricks import agents

agents.set_review_instructions(uc_model_name, "Thank you for testing the bot. Use your domain expertise to evaluate and give feedback on the bot's responses, ensuring it aligns with the needs and expectations of users like yourself.")
agents.get_review_instructions(uc_model_name)

Captura de pantalla de las instrucciones de la aplicación de revisión especificadas en el ejemplo de Python.

Chatear con la aplicación y enviar revisiones

Para chatear con la aplicación y enviar revisiones:

  1. Haga clic en Probar el bot en la barra lateral izquierda.

  2. Escriba su pregunta en el cuadro y presione Devolver o Entrar en el teclado, o haga clic en la flecha del cuadro. La aplicación muestra su respuesta a la pregunta y los orígenes que usó para encontrar la respuesta.

  3. Revise la respuesta de la aplicación y seleccione , No o No lo sé.

  4. La aplicación solicita información adicional. Active las casillas adecuadas o escriba sus comentarios en el campo proporcionado.

  5. También puede editar la respuesta directamente para proporcionar una mejor respuesta. Para editar la respuesta, haga clic en Editar respuesta, realice los cambios en el cuadro de diálogo y haga clic en Guardar, como se muestra en el vídeo siguiente.

    Cómo editar una respuesta

  6. Haga clic en Listo para guardar los comentarios.

  7. Siga haciendo preguntas para proporcionar comentarios adicionales.

En el diagrama siguiente se muestra este flujo de trabajo:

  1. Con la aplicación de revisión, el revisor chatea con la aplicación agente.
  2. Con la aplicación de revisión, el revisor proporciona comentarios sobre las respuestas de la aplicación.
  3. Todas las solicitudes, respuestas y comentarios se registran en tablas de inferencia.

Ejecute la aplicación de revisión en la que los expertos chatean con la aplicación agente y proporcionen comentarios.

Poner los registros de chat a disposición de los revisores expertos para su evaluación

Cuando un usuario interactúa con la aplicación mediante la API REST o la aplicación de revisión, todas las solicitudes, respuestas y comentarios adicionales se guardan en tablas de inferencia. Las tablas de inferencia se encuentran en el mismo catálogo y esquema del catálogo de Unity donde se registró el modelo y se denominan <model_name>_payload, <model_name>_payload_assessment_logs y <model_name>_payload_request_logs. Para obtener más información sobre estas tablas, incluidos los esquemas, consulte Tablas de inferencia mejoradas por agente.

Para cargar estos registros en la aplicación de revisión para su evaluación por parte de revisores expertos, primero debe encontrar el request_id y habilitar las revisiones para que request_id sea de la siguiente manera:

  1. Busque los elementos request_id que se van a revisar de la tabla de inferencia <model_name>_payload_request_logs. La tabla de inferencia se encuentra en el mismo catálogo y esquema del catálogo de Unity donde se registró el modelo.

  2. Use código similar al siguiente para cargar los registros de revisión en la aplicación de revisión:

    from databricks import agents
    
    agents.enable_trace_reviews(
      model_name=model_fqn,
      request_ids=[
          "52ee973e-0689-4db1-bd05-90d60f94e79f",
          "1b203587-7333-4721-b0d5-bba161e4643a",
          "e68451f4-8e7b-4bfc-998e-4bda66992809",
      ],
    )
    
  3. La celda de resultado incluye un vínculo a la aplicación de revisión con los registros seleccionados cargados para su revisión.

Revisión de la aplicación con registros de chat cargados para la revisión de expertos

Revisión de expertos de registros de las interacciones de otros usuarios con la aplicación

Para revisar los registros de los chats anteriores, los registros deben haberse habilitado para su revisión. Consulte Hacer que los revisores expertos evalúen los registros de chat.

  1. En la barra lateral izquierda de la aplicación de revisión, seleccione Chats para revisar. Se muestran las solicitudes habilitadas.

    chats habilitados para revisión

  2. Haga clic en una solicitud para mostrarla para su revisión.

  3. Revise la solicitud y la respuesta. La aplicación también muestra los orígenes que usó como referencia. Puede hacer clic en ellos para revisar la referencia y proporcionar comentarios sobre la relevancia del origen.

  4. Para proporcionar comentarios sobre la calidad de la respuesta, seleccione , No o No lo sé.

  5. La aplicación solicita información adicional. Active las casillas adecuadas o escriba sus comentarios en el campo proporcionado.

  6. También puede editar la respuesta directamente para proporcionar una mejor respuesta. Para editar la respuesta, haga clic en Editar respuesta, realice los cambios en el cuadro de diálogo y haga clic en Guardar. Consulta Chatear con la aplicación y enviar revisiones para ver un vídeo que muestra el proceso.

  7. Haga clic en Listo para guardar los comentarios.

En el diagrama siguiente se muestra este flujo de trabajo:

  1. Con la aplicación de revisión o la aplicación personalizada, los revisores chatearán con la aplicación agente.
  2. Todas las solicitudes y respuestas se registran en tablas de inferencia.
  3. El desarrollador de aplicaciones usa enable_trace_reviews([request_id]) (donde request_id procede de la tabla de inferencia <model_name>_payload_request_logs) para publicar registros de chat para revisar la aplicación.
  4. Con la aplicación de revisión, los registros de opiniones de expertos y proporcionan comentarios. Los comentarios de expertos se registran en tablas de inferencia.

Ejecute una revisión de seguimiento en la que los revisores interactúen con la aplicación de revisión o la API de REST para proporcionar comentarios.

Nota:

Si tiene habilitado Azure Storage Firewall, póngase en contacto con el equipo de cuentas de Azure Databricks para habilitar las tablas de inferencia para los puntos de conexión.

Use mlflow.evaluate() en la tabla de registros de solicitudes

En el cuaderno siguiente se muestra cómo usar los registros de la aplicación de revisión como entrada para una ejecución de evaluación mediante mlflow.evaluate(). Para más información sobre mlflow.evaluate(), consulte Evaluación de modelos de lenguaje grandes con MLflow.

Ejecución de la evaluación en el cuaderno de registros de solicitudes

Obtener el cuaderno