5단계 품질 문제의 근본 원인 파악
이 섹션의 샘플 코드는 GitHub 리포지토리에서 확인하세요.
예상 시간: 60분
요구 사항
- POC에 대한 평가 결과는 MLflow에서 확인할 수 있습니다. 4단계. POC 품질 평가를 따랐다면 결과는 MLflow로 확인할 수 있습니다.
- 이전 단계의 모든 요구 사항입니다.
개요
품질 문제의 가장 가능성이 큰 근본 원인은 검색 및 생성 단계입니다. 먼저 집중할 위치를 결정하려면 이전 단계에서 실행한 Mosaic AI 에이전트 평가 LLM 심사위원의 출력을 사용하여 앱의 품질에 영향을 주는 가장 빈번한 근본 원인을 식별합니다.
평가 집합의 각 행은 다음과 같이 태그가 지정됩니다.
- 전체 평가: 통과 또는 실패.
- 근본 원인:
Improve Retrieval
또는Improve Generation
. - 근본 원인 근거: 근본 원인을 선택한 이유에 대한 간략한 설명입니다.
지침
이 방법은 평가 집합에 질문에 대한 근거 있는 응답이 포함되어 있는지 여부에 따라 달라집니다. 이러한 응답은 expected_response
에 저장됩니다. expected_response
을(를) 사용 가능한 경우 실측 정보가 있는 경우 근본 원인 분석 표를 사용합니다 그렇지 않으면 실측 정보를 사용할 수 없는 경우 근본 원인 분석 표를 사용합니다.
- B_quality_iteration/01_root_cause_quality_issues notebook을 엽니다.
- 사용 사례와 관련된 셀(예: expected_response 없는 경우)을 실행합니다.
- 출력 테이블을 검토하여 애플리케이션에서 가장 빈번한 근본 원인을 확인합니다.
- 각 근본 원인에 대해 아래 단계에 따라 잠재적인 수정 사항을 추가로 디버그하고 식별합니다.
실측 정보를 사용할 수 있는 경우 근본 원인 분석
참고 항목
각 질문에 대해 어떤 문서를 검색해야 하는지에 대한 인간의 레이블이 지정된 접지 진실이 있는 경우 필요에 따라 retrieval/llm_judged/chunk_relevance/precision/average
에 대한 점수를 retrieval/ground_truth/document_recall/average
(으)로 대체할 수 있습니다.
청크 관련성 정밀도 | 접지 | 정확성 | 쿼리 관련성 | 문제 요약 | 근본 원인 | 전체 등급 |
---|---|---|---|---|---|---|
<50% | 실패 | 실패 | 실패 | 검색이 잘못되었습니다. | Improve Retrieval |
실패 |
<50% | 실패 | 실패 | 통과 | LLM은 관련 응답을 생성하지만 검색이 좋지 않습니다. 예를 들어 LLM은 검색을 무시하고 학습 지식을 사용하여 대답합니다. | Improve Retrieval |
실패 |
<50% | 실패 | 통과 | 통과 또는 실패 | 검색 품질이 좋지 않지만 LLM은 관계없이 올바른 답을 얻습니다. | Improve Retrieval |
실패 |
<50% | 통과 | 실패 | 실패 | 응답은 검색에 근거하지만 검색이 좋지 않습니다. | Improve Retrieval |
실패 |
<50% | 통과 | 실패 | 통과 | 검색된 컨텍스트에 기반한 관련 응답이지만 검색은 예상된 답변과 관련이 없을 수 있습니다. | Improve Retrieval |
실패 |
<50% | 합격 | 합격 | 통과 또는 실패 | 검색은 LLM이 올바르게 응답할 수 있는 충분한 정보를 찾습니다. | None | 통과 |
>50% | 실패 | 실패 | 통과 또는 실패 | 환각. | Improve Generation |
실패 |
>50% | 실패 | 통과 | 통과 또는 실패 | 환각, 정확하지만 컨텍스트에 없는 세부 정보를 생성합니다. | Improve Generation |
실패 |
>50% | 통과 | 실패 | 실패 | 검색이 좋지만 LLM은 관련 응답을 제공하지 않습니다. | Improve Generation |
실패 |
>50% | 통과 | 실패 | 통과 | 검색 및 관련 응답이 좋지만 정확하지는 않습니다. | Improve Generation |
실패 |
>50% | 합격 | 합격 | 합격 | 문제가 없습니다. | None | 통과 |
실측 정보를 사용할 수 없는 경우 근본 원인 분석
청크 관련성 정밀도 | 접지 | 쿼리 관련성 | 문제 요약 | 근본 원인 | 전체 등급 |
---|---|---|---|---|---|
<50% | 실패 | 실패 | 검색 품질이 좋지 않습니다. | Improve Retrieval |
실패 |
<50% | 실패 | 통과 | 검색 품질이 좋지 않습니다. | Improve Retrieval |
실패 |
<50% | 통과 | 실패 | 응답은 검색에 근거하지만 검색이 좋지 않습니다. | Improve Retrieval |
실패 |
<50% | 합격 | 합격 | 관련 응답은 검색된 컨텍스트 및 관련 항목에 기반하지만 검색이 좋지 않습니다. | Improve Retrieval |
통과 |
>50% | 실패 | 실패 | 환각. | Improve Generation |
실패 |
>50% | 실패 | 통과 | 환각. | Improve Generation |
실패 |
>50% | 통과 | 실패 | 검색은 양호하고 근거가 있지만 LLM은 관련 응답을 제공하지 않습니다. | Improve Generation |
실패 |
>50% | 합격 | 합격 | 검색 및 관련 응답이 좋습니다. 답이 올바른지 알기 위해 근거를 수집합니다. | None | 통과 |
다음 단계
식별한 문제를 디버그하려면 다음 페이지를 참조하세요.