共用方式為


增益圖 (Analysis Services - 資料採礦)

在資料採礦設計師中,您可以根據所選取的模型、模型中的可預測屬性和其他設定,在 [採礦精確度圖表] 索引標籤的 [增益圖] 索引標籤中檢視不同的圖表類型。

如果模型預測離散的值,則您可以建立增益圖或收益圖。增益圖會比較每個模型預測的精確度,並且可以設定為針對一般預測或特定值的預測而顯示精確度。雖然收益圖是與增益圖包含相同資訊的相關圖表類型,但是它也會顯示預計與使用每個模型相關聯的收益增加。使用 [圖表類型] 清單,來選取您要的圖表類型。

注意 您無法在增益圖或收益圖中顯示時間序列模型,但可以使用 [採礦模型預測] 索引標籤,檢視以序列為基礎而同時包含歷程記錄序列和預測的圖表。如需詳細資訊,請參閱<Microsoft 時間序列演算法>。

如需詳細資訊,請參閱:收益圖 (Analysis Services - 資料採礦), 散佈圖 (Analysis Services - 資料採礦)

狀況

[增益圖] 索引標籤會顯示採礦模型造成之 [增益] 變動的圖形表示。例如,Adventure Works Cycles 的行銷部門想要建立目標郵寄行銷資料。根據以往的活動,他們知道通常可以收到百分之 10 的回應率。他們在資料庫的資料表中儲存了一份 10,000 位潛在客戶的清單。因此,根據一般的回應率,他們預期有 1,000 位潛在客戶會回應。

不過,此專案的預算金額不足以連絡資料庫中全部 10,000 位客戶。根據預算,他們只能郵寄廣告給 5,000 位客戶。行銷部門有兩個選擇:

  • 隨機選取 5,000 位客戶作為目標

  • 使用採礦模型來鎖定最有可能回應的 5,000 位客戶

如果公司隨機選取 5,000 位客戶,則根據一般的回應率,他們預期只會收到 500 個回應。此案例是由增益圖中的 random 行所代表。不過,如果行銷部門使用採礦模型來鎖定郵寄對象,則可以預期有更高的回應率,因為可以鎖定最有可能回應的客戶群。如果模型很完美,意謂著可以建立完全無誤的預測,則公司可以郵寄給模型建議的 1,000 位潛在客戶,並預期達到 1,000 個回應。此案例是由增益圖中的 ideal 行來代表。事實上採礦模型極可能出現在這兩個極端之間,亦即隨機猜測與理想或完美預測之間。任何能改進隨機猜測的結果,就稱為增益。

瞭解增益圖

您可以建立兩種類型的增益圖:其中一個指定可預測資料行的目標值,另一個不指定此值。在 [輸入選擇] 索引標籤和 [增益圖] 索引標籤之間切換時,圖表會進行更新,以反映在資料行對應或其他設定中所做的任何變更。

含有目標值的增益圖

下圖將顯示您在<資料採礦基本教學課程>中建立之目標郵寄模型的增益圖。在這個圖表中,目標屬性是 [Bike Buyer] 而目標值是 1,表示客戶購買了自行車或可能會購買。因此,這個增益圖會顯示識別可能會購買自行車的客戶時,此模型所提供的改進。

除了基本模型以外,此圖表還包含已經篩選成鎖定特定客戶的相關模型。您可以將多個模型加入至增益圖,只要這些模型都具有相同的可預測屬性即可。這項篩選會將定型和評估所使用的案例限制為 30 歲以下的客戶。因此,對於基本模型和篩選模型而言,此模型所評估的案例數目便有所不同。當您解譯預測結果和其他統計資料時,請務必記住這點。

顯示兩個模型的增益圖

圖表的 X 軸代表用來比較預測之測試資料集的百分比。圖表的 Y 軸代表預測值的百分比。

對角直線 (在此以藍色顯示) 會出現在每張圖表中。它代表隨機猜測的結果,而且是評估增益所依據的基準。您加入至增益圖的每個模型會有兩條額外的線:第一條線顯示訓練資料集的理想結果 (如果您可以建立永遠完美預測的模型的話),而第二條線則顯示模型的實際增益,或結果的改進。

在此範例中,篩選模型的理想線條會以深藍色顯示,而實際增益的線條則以黃色顯示。從這張圖表中,您可以瞭解理想線條大約在 40% 處呈現尖峰狀態,表示如果您擁有完美模型,就可以透過僅傳送郵件給 40% 的總母體,連絡到 100% 的目標客戶。當您鎖定 40% 的母體時,篩選模型的實際增益便介於 60% 與 70% 之間,表示您可以透過傳送郵件給 40% 的總客戶母體,連絡到 60-70% 的目標客戶。

[採礦圖例] 包含曲線上任何一點的實際值。您可以按一下垂直灰色列並移動此列,藉以變更測量的位置。在此圖表中,灰線已經移至 30%,因為這是篩選模型與未篩選模型似乎最有效的點,而且這點之後,增益量便會降低。

[採礦圖例] 也包含可協助您解譯圖表的分數和統計資料。這些結果代表位於灰線之模型的精確度,而在此狀況中,它會定位成包含 30% 的整體測試案例。

數列、模型

分數

目標母體

預測機率

目標郵寄全部

0.71

47.40%

61.38%

目標郵寄 30 歲以下

0.85

51.81%

46.62%

隨機猜測模型

  

31.00%

  

理想模型:目標郵寄全部

  

62.48%

  

理想模型:目標郵寄 30 歲以下

  

65.28%

  

根據這些結果,您可以瞭解到,測量 30% 的所有案例時,一般模型 (目標郵寄全部) 就可以預測 47.40% 之目標母體的自行車購買行為。換言之,如果您僅寄出目標郵寄給資料庫中 30% 的客戶,可能會連絡到略少於目標對象的一半。如果您使用了篩選模型,就可以連絡到大約 51% 的目標客戶。

[預測機率] 的值代表在「可能會購買」案例中包含某位客戶所需的臨界值。此模型會針對每個案例估計每項預測的精確度並儲存該值,而且您可以使用該值來篩選或鎖定客戶。例如,若要從可能是購買者的基本模型中識別客戶,您會使用查詢來擷取預測機率至少為 61% 的案例。若要取得由篩選模型所鎖定的客戶,您會建立擷取符合所有準則之案例的查詢:年齡和至少 46% 的 PredictProbability 值。

比較這些模型很有趣。雖然篩選模型似乎會擷取更多潛在客戶,但是當您鎖定預測機率分數為 46% 的客戶時,也會有 53% 的機會傳送郵件給不會購買自行車的客戶。因此,如果您正在決定哪個模型比較好,就會想要針對基本模型的選擇性,在篩選模型的較大精確度與較小目標大小之間取得平衡。

[分數] 的值會透過計算模型在正規化母體中的效能,協助您比較模型。由於分數越高越好,因此在這個情況下,您可能會決定出鎖定 30 歲以下的客戶是最有效的策略,儘管預測機率較低也一樣。

沒有任何目標值之模型的增益圖

如果您不指定可預測資料行的狀態,您就會建立下列圖表中所顯示的圖表類型。這張圖表會針對可預測屬性的所有狀態,顯示此模型的執行效益。例如,這張圖表會針對可能會購買自行車的客戶與不太可能會購買自行車的客戶,告訴您此模型的預測效益。

X 軸與指定之可預測資料行的圖表中的 X 軸相同,但 Y 軸現在代表正確預測的百分比。因此,理想線條是對角線,表示在 50% 的資料中,此模型會正確預測 50% 的案例,亦即可預期的最大值。

顯示正確預測的增益圖

您可以在圖表中按一下,以便移動垂直灰色列,而且 [採礦圖例] 會顯示整體案例的百分比,以及正確預測之案例的百分比。例如,如果您將灰色滑動軸定位在 50% 的標示處,[採礦圖例] 就會顯示下列精確度分數。這些數字是以「資料採礦基本教學課程」中建立的 TM_Decision Tree 模型為基礎。

數列、模型

分數

目標母體

預測機率

TM_Decision Tree

0.77

40.50%

72.91%

理想模型

  

50.00%

  

這份表格表示,在 50% 的母體中,您所建立的模型會正確預測 40% 的案例。您可以將此模型視為相當正確的模型。不過,請記住,這個特定模型會預測可預測屬性的所有值。因此,在預測 90% 的客戶不會購買自行車方面,此模型可能是正確的。

[!附註]

可預測屬性之所有離散值的預測精確度會以單一線條顯示。如果您想要針對可預測屬性的任何個別值查看預測精確度線條,就必須針對該值建立個別的增益圖。

回到頁首

建立增益圖

資料採礦基本教學課程>包含了逐步解說,可為您示範如何為此目標郵寄模型建立增益圖。如需詳細資訊,請參閱<使用增益圖測試精確度 (基本資料採礦教學課程)>。

如需適用於所有圖表類型的逐步程序,請參閱<如何:建立採礦模型的精確度圖表>。