다음을 통해 공유


교차 유효성 검사 보고서의 측정값

적용 대상: SQL Server 2019 및 이전 Analysis Services Azure Analysis Services Fabric/Power BI Premium

중요

데이터 마이닝은 SQL Server 2017 Analysis Services에서 더 이상 사용되지 않으며 이제 SQL Server 2022 Analysis Services에서 중단되었습니다. 더 이상 사용되지 않는 기능 및 중단된 기능에 대해서는 설명서가 업데이트되지 않습니다. 자세한 내용은 Analysis Services 이전 버전과의 호환성을 참조하세요.

교차 유효성 검사를 수행하는 동안 SQL Server Analysis Services 마이닝 구조의 데이터를 여러 단면으로 나눕니다. 그런 다음 구조와 관련된 마이닝 모델을 반복적으로 테스트합니다. 이 분석을 기반으로 구조 및 각 모델에 대한 표준 정확도 측정값 집합을 출력합니다.

보고서에는 데이터의 접기 수 및 각 접기의 데이터 양에 대한 기본 정보와, 데이터 분포를 설명하는 일반 메트릭 집합이 포함됩니다. 각 교집합 영역에 대한 일반 메트릭을 비교하여 구조 또는 모델의 안정성을 평가할 수 있습니다.

SQL Server Analysis Services 마이닝 모델에 대한 자세한 측정값 집합도 표시합니다. 이 측정값은 모델 유형 및 분석되는 특성의 유형(예: 특성이 불연속 특성인지 아니면 연속 특성인지)에 따라 달라집니다.

이 섹션에서는 교차 유효성 검사 보고서에 포함되는 측정값의 목록과 의미를 제공합니다. 각 측정값을 계산하는 방법에 대한 자세한 내용은 교차 유효성 검사 수식을 참조하세요.

교차 유효성 검사 보고서의 측정값 목록

다음 표에서는 교차 유효성 검사 보고서에 표시되는 측정값을 나열합니다. 측정값은 다음 표의 왼쪽 열에서 제공하는 테스트 유형별로 그룹화됩니다. 오른쪽 열에는 보고서에 표시되는 측정값의 이름이 나열되고 간단한 설명이 제공됩니다.

테스트 유형 측정값 및 설명
Clustering 클러스터링 모델에 적용 되는 측정값
사례 가능성:
이 측정값은 일반적으로 사례가 특정 클러스터에 속할 가능성을 나타냅니다. 교차 유효성 검사의 경우 점수를 합계한 다음 사례 수로 나누므로 여기서 점수는 평균 사례 유사도입니다.
분류 분류 모델에 적용 되는 측정값
True Positive/True Negative/가양성/False Negative:

파티션에서 예측 상태가 대상 상태와 일치하고 예측 확률이 지정된 임계값보다 큰 행 또는 값의 수입니다.

대상 특성의 값이 누락된 사례는 제외되므로 일부 값의 수가 합계되지 않을 수 있습니다.
통과/실패:
파티션에서 예측 상태가 대상 상태와 일치하고 예측 확률 값이 0보다 큰 행 또는 값의 수입니다.
Likelihood 유사도 측정값은 여러 모델 유형에 적용됩니다.
리프트:
테스트 사례의 한계 확률에 대한 실제 예측 확률의 비율입니다. 대상 특성의 값이 누락된 행은 제외됩니다.

이 측정값은 일반적으로 모델을 사용할 때 대상 결과의 확률이 얼마나 높아지는지를 보여 줍니다.
루트 평균 제곱 오류:
파티션의 사례 수로 나눈 모든 파티션 사례에 대한 평균 오차의 제곱근으로, 대상 특성의 값이 누락된 행은 제외됩니다.

RMSE는 예측 모델에 널리 사용되는 평가자입니다. 점수는 각 사례의 잔여를 평균하여 모델 오차의 단일 표시기를 생성합니다.
로그 점수:
합한 다음, 입력 데이터 세트의 행 수로 나눈 각 사례에 대한 실제 확률의 로그로, 대상 특성의 값이 누락된 행은 제외됩니다.

확률이 소수 부분으로 표현되므로 로그 점수는 항상 음수입니다. 0에 가까운 수일수록 좋은 점수입니다. 원시 점수는 해당 분포가 매우 불규칙적이거나 비대칭적일 수 있지만 로그 점수는 백분율과 유사합니다.
예측 연속 숫자 특성을 예측하는 추정 모델에만 적용되는 측정값입니다.
루트 평균 제곱 오류:
예측 값을 실제 값과 비교할 때 평균 오차입니다.

RMSE는 예측 모델에 널리 사용되는 평가자입니다. 점수는 각 사례의 잔여를 평균하여 모델 오차의 단일 표시기를 생성합니다.
평균 절대 오차:
예측 값을 실제 값과 비교할 때 평균 오차이며, 오차의 절대 합계의 평균으로 계산합니다.

절대 평균 오차는 전체 예측이 실제 값과 얼마나 가까운지를 이해하는 데 유용합니다. 점수가 작을수록 예측이 더 정확했음을 의미합니다.
로그 점수:
합한 다음, 입력 데이터 세트의 행 수로 나눈 각 사례에 대한 실제 확률의 로그로, 대상 특성의 값이 누락된 행은 제외됩니다.

확률이 소수 부분으로 표현되므로 로그 점수는 항상 음수입니다. 0에 가까운 수일수록 좋은 점수입니다. 원시 점수는 해당 분포가 매우 불규칙적이거나 비대칭적일 수 있지만 로그 점수는 백분율과 유사합니다.
집계 집계 측정값은 각 파티션 결과의 분산을 보여 줍니다.
평균:
특정 측정값에 대한 파티션 값의 평균입니다.
표준 편차:
모델의 전체 파티션에서 특정 측정값에 대한 평균값과의 편차에 대한 평균입니다.

교차 유효성 검사의 경우 이 점수의 값이 높으면 접기 사이에 상당한 변형이 있음을 의미합니다.

참고 항목

테스트 및 유효성 검사(데이터 마이닝)