5단계 품질 문제의 근본 원인 파악

아티클
10/14/2024

반복 단계가 강조 표시된 워크플로

이 섹션의 샘플 코드는 GitHub 리포지토리에서 확인하세요.

예상 시간: 60분

요구 사항

POC에 대한 평가 결과는 MLflow에서 확인할 수 있습니다. 4단계. POC 품질 평가를 따랐다면 결과는 MLflow로 확인할 수 있습니다.
이전 단계의 모든 요구 사항입니다.

개요

품질 문제의 가장 가능성이 큰 근본 원인은 검색 및 생성 단계입니다. 먼저 집중할 위치를 결정하려면 이전 단계에서 실행한 Mosaic AI 에이전트 평가 LLM 심사위원의 출력을 사용하여 앱의 품질에 영향을 주는 가장 빈번한 근본 원인을 식별합니다.

평가 집합의 각 행은 다음과 같이 태그가 지정됩니다.

전체 평가: 통과 또는 실패.
근본 원인: Improve Retrieval 또는 Improve Generation.
근본 원인 근거: 근본 원인을 선택한 이유에 대한 간략한 설명입니다.

지침

이 방법은 평가 집합에 질문에 대한 근거 있는 응답이 포함되어 있는지 여부에 따라 달라집니다. 이러한 응답은 expected_response에 저장됩니다. expected_response을(를) 사용 가능한 경우 실측 정보가 있는 경우 근본 원인 분석 표를 사용합니다 그렇지 않으면 실측 정보를 사용할 수 없는 경우 근본 원인 분석 표를 사용합니다.

B_quality_iteration/01_root_cause_quality_issues notebook을 엽니다.
사용 사례와 관련된 셀(예: expected_response 없는 경우)을 실행합니다.
출력 테이블을 검토하여 애플리케이션에서 가장 빈번한 근본 원인을 확인합니다.
각 근본 원인에 대해 아래 단계에 따라 잠재적인 수정 사항을 추가로 디버그하고 식별합니다.
- 재개 품질 디버깅
- 생성 품질 디버깅

실측 정보를 사용할 수 있는 경우 근본 원인 분석

참고 항목

각 질문에 대해 어떤 문서를 검색해야 하는지에 대한 인간의 레이블이 지정된 접지 진실이 있는 경우 필요에 따라 retrieval/llm_judged/chunk_relevance/precision/average에 대한 점수를 retrieval/ground_truth/document_recall/average(으)로 대체할 수 있습니다.

청크 관련성 정밀도	접지	정확성	쿼리 관련성	문제 요약	근본 원인	전체 등급
<50%	실패	실패	실패	검색이 잘못되었습니다.	`Improve Retrieval`	실패
<50%	실패	실패	통과	LLM은 관련 응답을 생성하지만 검색이 좋지 않습니다. 예를 들어 LLM은 검색을 무시하고 학습 지식을 사용하여 대답합니다.	`Improve Retrieval`	실패
<50%	실패	통과	통과 또는 실패	검색 품질이 좋지 않지만 LLM은 관계없이 올바른 답을 얻습니다.	`Improve Retrieval`	실패
<50%	통과	실패	실패	응답은 검색에 근거하지만 검색이 좋지 않습니다.	`Improve Retrieval`	실패
<50%	통과	실패	통과	검색된 컨텍스트에 기반한 관련 응답이지만 검색은 예상된 답변과 관련이 없을 수 있습니다.	`Improve Retrieval`	실패
<50%	합격	합격	통과 또는 실패	검색은 LLM이 올바르게 응답할 수 있는 충분한 정보를 찾습니다.	None	통과
>50%	실패	실패	통과 또는 실패	환각.	`Improve Generation`	실패
>50%	실패	통과	통과 또는 실패	환각, 정확하지만 컨텍스트에 없는 세부 정보를 생성합니다.	`Improve Generation`	실패
>50%	통과	실패	실패	검색이 좋지만 LLM은 관련 응답을 제공하지 않습니다.	`Improve Generation`	실패
>50%	통과	실패	통과	검색 및 관련 응답이 좋지만 정확하지는 않습니다.	`Improve Generation`	실패
>50%	합격	합격	합격	문제가 없습니다.	None	통과

실측 정보를 사용할 수 없는 경우 근본 원인 분석

청크 관련성 정밀도	접지	쿼리 관련성	문제 요약	근본 원인	전체 등급
<50%	실패	실패	검색 품질이 좋지 않습니다.	`Improve Retrieval`	실패
<50%	실패	통과	검색 품질이 좋지 않습니다.	`Improve Retrieval`	실패
<50%	통과	실패	응답은 검색에 근거하지만 검색이 좋지 않습니다.	`Improve Retrieval`	실패
<50%	합격	합격	관련 응답은 검색된 컨텍스트 및 관련 항목에 기반하지만 검색이 좋지 않습니다.	`Improve Retrieval`	통과
>50%	실패	실패	환각.	`Improve Generation`	실패
>50%	실패	통과	환각.	`Improve Generation`	실패
>50%	통과	실패	검색은 양호하고 근거가 있지만 LLM은 관련 응답을 제공하지 않습니다.	`Improve Generation`	실패
>50%	합격	합격	검색 및 관련 응답이 좋습니다. 답이 올바른지 알기 위해 근거를 수집합니다.	None	통과

다음 단계

식별한 문제를 디버그하려면 다음 페이지를 참조하세요.

다음을 통해 공유

5단계 품질 문제의 근본 원인 파악

요구 사항

개요

지침

실측 정보를 사용할 수 있는 경우 근본 원인 분석

실측 정보를 사용할 수 없는 경우 근본 원인 분석

다음 단계

피드백

추가 리소스