共用方式為


增益圖 (Analysis Services - 資料採礦)

增益圖以圖形方式表示採礦模型根據隨機猜測所提供的改善,並測量增益分數的變更。 藉由比較資料集的各個部分和不同模型的增益分數,您可以判斷哪一個模型是最佳,而資料集中的案例百分比會受益于套用模型的預測。

透過增益圖,您可以比較多個具有相同可預測屬性之模型的預測精確度。 您也可以評估單一結果 (可預測屬性的單一值) 或所有結果 (指定屬性的所有值) 的預測精確度。

雖然收益圖是與增益圖包含相同資訊的相關圖表類型,但是它也會顯示預計與使用每個模型相關聯的收益增加。

了解增益圖

抽象的增益圖可能很難理解。 因此,本節提供使用增益圖估計目標郵寄促銷活動之回應的案例,以說明增益圖工具的用法及圖表中的資訊。

本案例中的行銷部門知道通常大致可以從郵寄促銷活動收到 10% 的回應率。 他們在資料庫的資料表中儲存了一份 10,000 位潛在客戶的清單。 根據一般的回應率,他們通常預期只有約 1,000 位潛在客戶會回應。 不過,此專案的預算金額不足以連絡資料庫中全部 10,000 位客戶,而他們希望改進回應率。 本案例假設其預算只能讓他們郵寄廣告給 5,000 位客戶。 行銷部門有兩個選項:

  • 隨機選取 5,000 位客戶做為目標。

  • 使用採礦模型來鎖定最有可能回應的 5,000 位客戶。

透過增益圖,您可以比較這兩個選項的預期結果。 例如,如果公司隨機選取 5,000 位客戶,則根據一般的回應率,他們可能預期只會收到 500 個回應。 此案例是增益圖中的 隨機 線條所代表的內容。 不過,如果行銷部門使用採礦模型來鎖定郵寄對象,則可以預期有更高的回應率,因為模型可以識別最有可能回應的客戶群。 如果模型很完美,則會建立完全無誤的預測,且公司可以透過只傳送郵件給模型建議的 1,000 位潛在客戶,預期達到 1,000 個回應。 在增益圖中以「理想」線條代表此狀況。

事實上採礦模型極可能出現在這兩個極端之間,亦即隨機猜測與理想或完美預測之間。 任何能改進隨機猜測的結果,就稱為增益。

當您建立增益圖時,您可以特定值為目標,僅測量該結果的增益;您也可以建立模型的一般評估,以測量所有可能結果的增益。 這些選項會影響最終圖表,詳情請參閱下列章節。

回到頂端

含有目標值的增益圖

下圖顯示您在 資料採礦基本教學課程 中建立之 目標郵寄模型的增益圖。 在這個圖表中,目標屬性是 [Bike Buyer] 而目標值是 1,表示預期客戶會購買一台自行車。 因此,這個增益圖會顯示識別這些潛在客戶時,此模型所提供的改進。

此圖表包含多個以相同資料為基礎的模型。 其中一個模型已自訂為鎖定特定客戶。 您可以對用於定型模式的資料加入篩選,來自訂模型。 這項篩選會將定型和評估所使用的案例限制為 30 歲以下的客戶。 請注意,篩選的其中一個影響是基本模型和篩選模型使用不同的資料集,因此增益圖中用於評估的案例數也會不同。 當您解譯預測結果和其他統計資料時,請務必記住這點。

顯示兩個模型的

圖表的 X 軸代表用來比較預測之測試資料集的百分比。 圖表的 Y 軸代表預測值的百分比。

對角直線 (在此以藍色顯示) 會出現在每張圖表中。 它代表隨機猜測的結果,而且是評估增益所依據的基準。 您加入至增益圖的每個模型會有兩條額外的線:第一條線顯示訓練資料集的理想結果 (如果您可以建立永遠完美預測的模型的話),而第二條線則顯示模型的實際增益,或結果的改進。

在此範例中,篩選模型的理想線條會以深藍色顯示,而實際增益的線條則以黃色顯示。 從這張圖表中,您可以了解理想線條大約在 40% 處呈現尖峰狀態,表示如果您擁有完美模型,就可以透過僅傳送郵件給 40% 的總母體,連絡到 100% 的目標客戶。 當您鎖定 40% 的母體時,篩選模型的實際增益便介於 60% 與 70% 之間,表示您可以透過傳送郵件給 40% 的總客戶母體,連絡到 60-70% 的目標客戶。

[採礦圖例] 包含曲線上任何一點的實際值。 您可以按一下垂直灰色列並移動此列,藉以變更測量的位置。 在此圖表中,灰線已經移至 30%,因為這是篩選模型與未篩選模型似乎最有效的點,而且這點之後,增益量便會降低。

[採礦圖例] 也包含可協助您解譯圖表的分數和統計資料。 這些結果代表位於灰線之模型的精確度,而在此狀況中,它會定位成包含 30% 的整體測試案例。

數列和模型 Score 目標母體 預測機率
目標郵寄全部 0.71 47.40% 61.38%
目標郵寄 30 歲以下 0.85 51.81% 46.62%
隨機猜測模型 31.00%
理想模型:目標郵寄全部 62.48%
理想模型:目標郵寄 30 歲以下 65.28%

回到頂端

解譯結果

根據這些結果,您可以了解到,測量 30% 的所有案例時,一般模型 [目標郵寄全部] 就可以預測 47.40% 之目標母體的自行車購買行為。 換言之,如果您僅寄出目標郵寄給資料庫中 30% 的客戶,可能會連絡到略少於目標對象的一半。 如果您使用了篩選模型,可能會有好一點的結果,並連絡到大約 51% 的目標客戶。

[預測機率] 的值代表在「可能會購買」案例中包含某位客戶所需的臨界值。 此模型會針對每個案例估計每項預測的精確度並儲存該值,而且您可以使用該值來篩選或鎖定客戶。 例如,若要從可能是購買者的基本模型中識別客戶,您會使用查詢來擷取預測機率至少為 61% 的案例。 若要取得由篩選模型所鎖定的客戶,您會建立擷取符合所有準則之案例的查詢:年齡和至少 46% 的 PredictProbability 值。

比較這些模型很有趣。 雖然篩選模型似乎會擷取更多潛在客戶,但是當您鎖定預測機率分數為 46% 的客戶時,也會有 53% 的機會傳送郵件給不會購買自行車的客戶。 因此,如果您正在決定哪個模型比較好,就會想要針對基本模型的選擇性,在篩選模型的較大精確度與較小目標大小之間取得平衡。

[分數] 的值會透過計算模型在正規化母體擴展中的效能,協助您比較模型。 由於分數越高越好,因此在這個情況下,您可能會決定出鎖定 30 歲以下的客戶是最有效的策略,儘管預測機率較低也一樣。

回到頂端

沒有任何目標值之模型的增益圖

如果您不指定可預測資料行的狀態,您就會建立下列圖表中所顯示的圖表類型。 這張圖表會針對可預測屬性的所有狀態,顯示此模型的執行效益。 例如,這張圖表會針對可能會購買自行車的客戶與不太可能會購買自行車的客戶,告訴您此模型的預測效益。

X 軸與指定之可預測資料行的圖表中的 X 軸相同,但 Y 軸現在代表正確預測的百分比。 因此,理想線條是對角線,表示在 50% 的資料中,此模型會正確預測 50% 的案例,亦即可預期的最大值。

顯示正確預測

您可以在圖表中按一下,以便移動垂直灰色列,而且 [採礦圖例] 會顯示整體案例的百分比,以及正確預測之案例的百分比。 例如,如果您將灰色滑動軸定位在 50% 的標示處,[採礦圖例] 就會顯示下列精確度分數。 這些數字是以「資料採礦基本教學課程」中建立的 TM_Decision Tree 模型為基礎。

數列、模型 Score 目標母體 預測機率
TM_Decision Tree 0.77 40.50% 72.91%
理想模型 50.00%

這份表格表示,在 50% 的母體中,您所建立的模型會正確預測 40% 的案例。 您可以將此模型視為相當正確的模型。 不過,請記住,這個特定模型會預測可預測屬性的所有值。 因此,在預測 90% 的客戶不會購買自行車方面,此模型可能是正確的。

回到頂端

增益圖的限制

增益圖的可預測屬性必須是離散值。 換句話說,您無法使用增益圖測量預測連續數值之模型的精確度。

可預測屬性之所有離散值的預測精確度會以單一線條顯示。 如果您想要針對可預測屬性的任何個別值查看預測精確度線條,就必須針對每個目標值建立個別的增益圖。

您可以將多個模型加入至增益圖,只要這些模型都具有相同的可預測屬性即可。 您無法在 [輸入] 索引標籤中選取未共用屬性的模型。

您無法在增益圖或收益圖中顯示時間序列模型。 測量時間序列預測精確度的常見作法,是保留一部分歷程記錄資料,然後將該資料與預測進行比較。 如需詳細資訊,請參閱 Microsoft 時間序列演算法

回到頂端

另請參閱

測試和驗證 (資料採礦)