다음을 통해 공유


5단계 품질 문제의 근본 원인 파악

반복 단계가 강조 표시된 워크플로

이 섹션의 샘플 코드는 GitHub 리포지토리에서 확인하세요.

예상 시간: 60분

요구 사항

  • POC에 대한 평가 결과는 MLflow에서 확인할 수 있습니다. 4단계. POC 품질 평가를 따랐다면 결과는 MLflow로 확인할 수 있습니다.
  • 이전 단계의 모든 요구 사항입니다.

개요

품질 문제의 가장 가능성이 큰 근본 원인은 검색 및 생성 단계입니다. 먼저 집중할 위치를 결정하려면 이전 단계에서 실행한 Mosaic AI 에이전트 평가 LLM 심사위원의 출력을 사용하여 앱의 품질에 영향을 주는 가장 빈번한 근본 원인을 식별합니다.

평가 집합의 각 행은 다음과 같이 태그가 지정됩니다.

  • 전체 평가: 통과 또는 실패.
  • 근본 원인: Improve Retrieval 또는 Improve Generation.
  • 근본 원인 근거: 근본 원인을 선택한 이유에 대한 간략한 설명입니다.

지침

이 방법은 평가 집합에 질문에 대한 근거 있는 응답이 포함되어 있는지 여부에 따라 달라집니다. 이러한 응답은 expected_response에 저장됩니다. expected_response을(를) 사용 가능한 경우 실측 정보가 있는 경우 근본 원인 분석 표를 사용합니다 그렇지 않으면 실측 정보를 사용할 수 없는 경우 근본 원인 분석 표를 사용합니다.

  1. B_quality_iteration/01_root_cause_quality_issues notebook을 엽니다.
  2. 사용 사례와 관련된 셀(예: expected_response 없는 경우)을 실행합니다.
  3. 출력 테이블을 검토하여 애플리케이션에서 가장 빈번한 근본 원인을 확인합니다.
  4. 각 근본 원인에 대해 아래 단계에 따라 잠재적인 수정 사항을 추가로 디버그하고 식별합니다.

실측 정보를 사용할 수 있는 경우 근본 원인 분석

참고 항목

각 질문에 대해 어떤 문서를 검색해야 하는지에 대한 인간의 레이블이 지정된 접지 진실이 있는 경우 필요에 따라 retrieval/llm_judged/chunk_relevance/precision/average에 대한 점수를 retrieval/ground_truth/document_recall/average(으)로 대체할 수 있습니다.

청크 관련성 정밀도 접지 정확성 쿼리 관련성 문제 요약 근본 원인 전체 등급
<50% 실패 실패 실패 검색이 잘못되었습니다. Improve Retrieval 실패
<50% 실패 실패 통과 LLM은 관련 응답을 생성하지만 검색이 좋지 않습니다. 예를 들어 LLM은 검색을 무시하고 학습 지식을 사용하여 대답합니다. Improve Retrieval 실패
<50% 실패 통과 통과 또는 실패 검색 품질이 좋지 않지만 LLM은 관계없이 올바른 답을 얻습니다. Improve Retrieval 실패
<50% 통과 실패 실패 응답은 검색에 근거하지만 검색이 좋지 않습니다. Improve Retrieval 실패
<50% 통과 실패 통과 검색된 컨텍스트에 기반한 관련 응답이지만 검색은 예상된 답변과 관련이 없을 수 있습니다. Improve Retrieval 실패
<50% 합격 합격 통과 또는 실패 검색은 LLM이 올바르게 응답할 수 있는 충분한 정보를 찾습니다. None 통과
>50% 실패 실패 통과 또는 실패 환각. Improve Generation 실패
>50% 실패 통과 통과 또는 실패 환각, 정확하지만 컨텍스트에 없는 세부 정보를 생성합니다. Improve Generation 실패
>50% 통과 실패 실패 검색이 좋지만 LLM은 관련 응답을 제공하지 않습니다. Improve Generation 실패
>50% 통과 실패 통과 검색 및 관련 응답이 좋지만 정확하지는 않습니다. Improve Generation 실패
>50% 합격 합격 합격 문제가 없습니다. None 통과

실측 정보를 사용할 수 없는 경우 근본 원인 분석

청크 관련성 정밀도 접지 쿼리 관련성 문제 요약 근본 원인 전체 등급
<50% 실패 실패 검색 품질이 좋지 않습니다. Improve Retrieval 실패
<50% 실패 통과 검색 품질이 좋지 않습니다. Improve Retrieval 실패
<50% 통과 실패 응답은 검색에 근거하지만 검색이 좋지 않습니다. Improve Retrieval 실패
<50% 합격 합격 관련 응답은 검색된 컨텍스트 및 관련 항목에 기반하지만 검색이 좋지 않습니다. Improve Retrieval 통과
>50% 실패 실패 환각. Improve Generation 실패
>50% 실패 통과 환각. Improve Generation 실패
>50% 통과 실패 검색은 양호하고 근거가 있지만 LLM은 관련 응답을 제공하지 않습니다. Improve Generation 실패
>50% 합격 합격 검색 및 관련 응답이 좋습니다. 답이 올바른지 알기 위해 근거를 수집합니다. None 통과

다음 단계

식별한 문제를 디버그하려면 다음 페이지를 참조하세요.