共用方式為


交叉驗證報表中的量值

在交叉驗證期間,Analysis Services 會將採礦結構中的資料分成多個交叉區段,然後反復測試結構和任何相關聯的採礦模型。 根據這項分析,結果會輸出有關結構及每個模型的一組標準精確度量值。

此報表除了包含一些有關資料中的摺疊數以及每個摺疊中的資料量等基本資訊外,也包含一組描述資料分佈的一般標準。 藉由比較針對每個交叉區段的一般標準,您可以評估結構或模型的可靠性。

Analysis Services 也會顯示一組採礦模型的詳細量值。 這些量值會因模型類型及要分析的屬性類型而異:例如,其為離散或連續。

本節提供 [交叉驗證] 報表中含有的量值清單,及其代表的意義。 如需每個量值導出方式的詳細資訊,請參閱 交叉驗證公式

交叉驗證報表中的量值清單

下表列出交叉驗證報表中顯示的量值清單。 這些量值會依「測試類型」分組,並顯示於下表左欄中。 左欄列出量值在報表中顯示的名稱,並簡短說明其代表的意義。

測試類型 量值和描述
叢集 適用于叢集模型的量值:

案例可能性:此量值通常表示案例屬於特定叢集的可能性。
針對交叉驗證,此分數會先加總,再除以案例數,即得到平均案例可能性的分數。
分類 適用于分類模型的量值:

真肯定/
True 負數/ 誤判/ 誤判:資料分割中的資料列或值計數,其中預測狀態符合目標狀態,且預測機率大於指定的臨界值。 排除目標屬性遺漏值的案例,這表示所有值的計數可能不會加總
傳遞/失敗:資料分割中的資料列或值計數,其中預測狀態符合目標狀態,以及預測機率值大於 0 的位置。
可能性 可能性量值適用于多個模型類型:

增益:實際預測機率與測試案例中臨界機率的比率。 不包括目標屬性擁有遺漏值的資料列。 此量值通常顯示在使用模型時目標結果之機率的改進程度。

根平均平方誤差:所有分割區案例平均誤差的平方根,除以分割區中的案例數目,不包括目標屬性遺漏值的資料列。 RMSE 是常用的預測模型估計工具。 此分數會平均每個案例的餘數,得出模型誤差的單一指標。

記錄分數:每個案例的實際機率對數、加總,然後除以輸入資料集中的資料列數目,不包括目標屬性遺漏值的資料列。 由於機率會以小數表示,因此對數分數永遠為負數。 越接近 0 的數字,表示越高的分數。 鑑於原始分數可能具有非常不尋常或偏斜的散發,對數分數會與百分比類似。
估計 僅適用于估計模型的量值,可預測連續數值屬性:

根平均平方誤差:預測值與實際值相比較時的平均誤差。 RMSE 是常用的預測模型估計工具。 此分數會平均每個案例的餘數,得出模型誤差的單一指標。

平均絕對誤差:當預測值與實際值相比較時的平均誤差,計算為誤差的絕對總和平均值。 平均絕對誤差有助於了解整體預測與實際值之間的差距。 分數愈小,表示預測愈精準。

記錄分數:每個案例的實際機率對數、加總,然後除以輸入資料集中的資料列數目,不包括目標屬性遺漏值的資料列。 由於機率會以小數表示,因此對數分數永遠為負數。 越接近 0 的數字,表示越高的分數。 鑑於原始分數可能具有非常不尋常或偏斜的散發,對數分數會與百分比類似。
彙總 匯總量值會針對每個分割區提供結果變異數的指示:

平均:特定量值的資料分割值平均值。

標準差:模型中所有分割區中,與特定量值平均值的偏差平均值平均值。 針對交叉驗證,此分數的值愈高意味著摺疊數之間會有顯著的變化。

另請參閱

測試和驗證 (資料採礦)