Microsoft貝氏機率分類演算法
適用於: SQL Server 2019 和舊版 Analysis Services Azure Analysis Services Fabric/Power BI Premium
重要
SQL Server 2017 Analysis Services 中已淘汰數據採礦,現在已在 SQL Server 2022 Analysis Services 中停止。 檔不會更新為已淘汰和已停止的功能。 若要深入瞭解,請參閱 Analysis Services 回溯相容性。
Microsoft貝氏機率分類演算法是以貝氏定理為基礎的分類演算法,可用於探勘和預測模型。 貝氏機率名稱中的天真字衍生自演算法使用貝氏技術,但不考慮可能存在的相依性。
此演算法的計算強度比其他Microsoft演算法少,因此有助於快速產生採礦模型,以探索輸入數據行與可預測數據行之間的關聯性。 您可以使用此演算法對數據進行初始探索,然後稍後您可以套用結果,以建立具有更密集且更精確運算的其他演算法的其他採礦模型。
例
作為正在進行的促銷策略,Adventure Works Cycle 公司的行銷部門已決定透過郵寄傳單來鎖定潛在客戶。 為了降低成本,他們只想將傳單傳送給可能回應的客戶。 公司會將有關人口統計和回應先前郵件的資訊儲存在資料庫中。 他們想要使用此數據來瞭解年齡和位置等人口統計如何協助預測對促銷的回應,方法是比較潛在客戶與過去從公司購買的類似特性的客戶。 具體來說,他們希望看到那些購買自行車的客戶與那些沒有購買自行車的客戶之間的差異。
藉由使用Microsoft貝氏機率分類演算法,行銷部門可以快速預測特定客戶配置檔的結果,因此可以判斷哪些客戶最有可能回應傳單。 藉由在 SQL Server Data Tools 中使用Microsoft貝氏機率分類查看器,也可以以可視化方式調查哪些輸入數據行對傳單產生正面回應。
演算法的運作方式
Microsoft貝氏機率分類演算法會根據可預測數據行的每個可能狀態,計算每個輸入數據行之每個狀態的機率。
若要了解運作方式,請使用 SQL Server Data Tools 中的Microsoft貝氏機率分類查看器(如下圖所示),以可視化方式探索演算法散發狀態的方式。
在這裡,Microsoft貝氏機率分類查看器會列出數據集中的每個輸入數據行,並顯示每個數據行的狀態如何分佈,並指定可預測數據行的每個狀態。
您會使用此模型的檢視來識別輸入數據行,這些輸入數據行對於區分可預測數據行的狀態很重要。
例如,在此顯示的通勤距離數據列中,買家與非買家的輸入值分佈明顯不同。 這會告訴您,輸入通勤距離 = 0-1 英里是潛在的預測值。
查看器也提供分佈的值,因此您可以看到,對於從一到兩英里上班的客戶,購買自行車的機率是0.387,而且他們不會購買自行車的機率是0.287。 在此範例中,演算法會使用衍生自客戶特性(例如通勤距離)的數值資訊來預測客戶是否會購買自行車。
如需使用 Microsoft 貝氏機率檢視器的詳細資訊,請參閱 使用 Microsoft貝氏機率分類查看器流覽模型。
貝氏機率分類模型所需的數據
當您準備數據以用於定型貝氏機率分類模型時,您應該了解演算法的需求,包括需要多少數據,以及如何使用數據。
貝氏機率分類模型的需求如下:
單一索引鍵數據行 每個模型必須包含一個可唯一識別每筆記錄的數值或文字數據行。 不允許複合索引鍵。
輸入數據行 在貝氏機率模型中,所有數據行都必須是離散的,或是值必須已量化。 如需如何離散化 (bin) 資料行的詳細資訊,請參閱 離散化方法 (資料採礦)。
變數必須獨立。 對於貝氏機率分類模型,請務必確保輸入屬性彼此獨立。 當您使用模型進行預測時,這特別重要。 如果您使用兩個已經密切相關的數據行,效果就是乘以這些數據行的影響,這可能會遮蔽影響結果的其他因素。
相反地,當您探索模型或數據集時,演算法識別變數間相互關聯的能力很有用,以識別輸入之間的關聯性。
至少一個可預測的數據行 可預測屬性必須包含離散或離散化值。
可預測數據行的值可以視為輸入。 當您探索新的數據集時,這個練習很有用,以尋找數據行之間的關聯性。
檢視模型
若要探索模型,您可以使用 Microsoft 貝氏機率查看器。 查看器會顯示輸入屬性與可預測屬性的關聯性。 查看器也會提供每個叢集的詳細配置檔、區分每個叢集與其他叢集的屬性清單,以及整個定型數據集的特性。 如需詳細資訊,請參閱 使用 Microsoft 貝氏機率分類查看器瀏覽模型。
如果您想要深入瞭解,您可以在 Microsoft 一般內容樹視圖器 (資料採礦)中流覽模型。 如需模型中所儲存資訊類型的詳細資訊,請參閱 貝氏機率分類模型的採礦模型內容(Analysis Services - 數據採礦)。
進行預測
定型模型之後,結果會儲存為一組模式,您可以探索或使用來進行預測。
您可以建立查詢來傳回新數據與可預測屬性的關聯性預測,或擷取描述模型所找到相互關聯之統計數據。
如需如何針對數據採礦模型建立查詢的詳細資訊,請參閱 數據採礦查詢。 如需如何搭配貝氏機率分類模型使用查詢的範例,請參閱 貝氏機率分類模型查詢範例。
言論
支援使用預測模型標記語言 (PMML) 來建立採礦模型。
支援鑽研。
不支援建立數據採礦維度。
支援使用 OLAP 採礦模型。
另請參閱
數據採礦演算法 (Analysis Services - 數據採礦)
特徵選取 (資料採礦)
貝氏機率分類模型查詢範例
貝氏機率分類模型的 採礦模型內容 (Analysis Services - 數據採礦)
Microsoft 貝氏機率演演算法技術參考