다음을 통해 공유


평가 중심 개발 워크플로

이 섹션에서는 고품질 RAG 애플리케이션인 평가 기반 개발을 빌드, 테스트 및 배포하기 위한 Databricks 권장 개발 워크플로를 안내합니다. 이 워크플로는 고품질 RAG 애플리케이션을 빌드하고 평가하기 위한 Mosaic Research 팀의 권장 모범 사례를 기반으로 합니다. Databricks는 다음 평가 기반 워크플로를 권장합니다.

  1. 요구 사항을 정의합니다.
  2. POC(신속한 개념 증명)에 대한 관련자 피드백을 수집합니다.
  3. POC의 품질을 평가합니다.
  4. 품질 문제를 반복적으로 진단하고 해결합니다.
  5. 프로덕션에 배포합니다.
  6. 프로덕션 환경에서 모니터링합니다.

평가 중심 개발 워크플로

평가 기반 개발에는 다음 두 가지 핵심 개념이 있습니다.

  • 메트릭: 고품질의 의미를 정의합니다.

    매년 비즈니스 목표를 설정하는 방법과 마찬가지로 사용 사례에 대한 고품질의 의미를 정의해야 합니다. Mosaic AI 에이전트 평가는 사용할 제안된 메트릭 집합을 제공하며, 그 중 가장 중요한 것은 응답 정확도 또는 정확성입니다. RAG 애플리케이션이 올바른 답변을 제공하는가?

  • 평가 집합: 메트릭을 객관적으로 측정합니다.

    품질을 객관적으로 측정하려면 인간이 검증한 좋은 답변이 포함된 질문을 포함하는 평가 집합이 필요합니다. 이 가이드에서는 이 평가 집합을 개발하고 반복적으로 구체화하는 과정을 안내합니다.

메트릭 및 평가 집합에 대한 고정은 다음과 같은 이점을 제공합니다.

  • 개발 중에 애플리케이션의 품질을 반복적이고 자신 있게 구체화할 수 있습니다. 변경으로 인해 개선이 발생했는지 더 이상 추측할 수 없습니다.
  • "애플리케이션이 비즈니스에 대한 가장 중요한 질문에 올바르게 응답하고 환각하지 않는다는 것을 알고 있습니다."

평가 기반 워크플로를 보여 주는 단계별 연습의 경우 필수 구성 요소: 요구 사항 수집으로 시작합니다.