평가 중심 개발 워크플로
이 섹션에서는 고품질 RAG 애플리케이션인 평가 기반 개발을 빌드, 테스트 및 배포하기 위한 Databricks 권장 개발 워크플로를 안내합니다. 이 워크플로는 고품질 RAG 애플리케이션을 빌드하고 평가하기 위한 Mosaic Research 팀의 권장 모범 사례를 기반으로 합니다. Databricks는 다음 평가 기반 워크플로를 권장합니다.
- 요구 사항을 정의합니다.
- POC(신속한 개념 증명)에 대한 관련자 피드백을 수집합니다.
- POC의 품질을 평가합니다.
- 품질 문제를 반복적으로 진단하고 해결합니다.
- 프로덕션에 배포합니다.
- 프로덕션 환경에서 모니터링합니다.
평가 기반 개발에는 다음 두 가지 핵심 개념이 있습니다.
메트릭: 고품질의 의미를 정의합니다.
매년 비즈니스 목표를 설정하는 방법과 마찬가지로 사용 사례에 대한 고품질의 의미를 정의해야 합니다. Mosaic AI 에이전트 평가는 사용할 제안된 메트릭 집합을 제공하며, 그 중 가장 중요한 것은 응답 정확도 또는 정확성입니다. RAG 애플리케이션이 올바른 답변을 제공하는가?
평가 집합: 메트릭을 객관적으로 측정합니다.
품질을 객관적으로 측정하려면 인간이 검증한 좋은 답변이 포함된 질문을 포함하는 평가 집합이 필요합니다. 이 가이드에서는 이 평가 집합을 개발하고 반복적으로 구체화하는 과정을 안내합니다.
메트릭 및 평가 집합에 대한 고정은 다음과 같은 이점을 제공합니다.
- 개발 중에 애플리케이션의 품질을 반복적이고 자신 있게 구체화할 수 있습니다. 변경으로 인해 개선이 발생했는지 더 이상 추측할 수 없습니다.
- "애플리케이션이 비즈니스에 대한 가장 중요한 질문에 올바르게 응답하고 환각하지 않는다는 것을 알고 있습니다."
평가 기반 워크플로를 보여 주는 단계별 연습의 경우 필수 구성 요소: 요구 사항 수집으로 시작합니다.