雙類別判定樹系元件
本文說明 Azure 機器學習 設計工具中的元件。
使用此元件來建立以判定樹系演算法為基礎的機器學習模型。
決策樹系是快速、受監督的合奏模型。 如果您想要預測最多兩個結果的目標,此元件是不錯的選擇。
了解決策樹系
此判定樹系演算法是用於分類工作的合奏學習方法。 合奏方法是以一般原則為基礎,而不是依賴單一模型,您可以藉由建立多個相關模型並以某種方式結合它們來取得更好的結果和更一般化的模型。 一般而言,集團模型比單一決策樹的涵蓋範圍更廣、精確度更高。
有許多方式可以建立個別模型,並將其結合在一起。 此特定判定樹實作的運作方式是建置多個判定樹,然後 投票給 最受歡迎的輸出類別。 投票是在合奏模型中產生結果的已知方法之一。
- 會使用整個數據集來建立許多個別分類樹狀結構,但起點不同(通常是隨機化)。 這與隨機樹系方法不同,其中個別判定樹可能只會使用數據或功能的一些隨機部分。
- 判定樹樹中的每個樹狀結構都會輸出標籤的非正規化頻率直方圖。
- 匯總程式會加總這些直方圖,並將結果正規化,以取得每個標籤的「機率」。
- 具有高預測信心的樹狀結構在合奏的最終決定中會有更大的權重。
判定樹通常有許多分類工作的優點:
- 它們可以擷取非線性決策界限。
- 您可以定型和預測大量數據,因為它們在計算和記憶體使用量方面有效率。
- 特徵選取已整合到定型和分類程式中。
- 樹狀結構可以容納嘈雜的數據和許多功能。
- 它們是非參數模型,這表示它們可以處理具有不同分佈的數據。
不過,簡單的判定樹可以過度適應數據,而且比樹狀結構合奏更普遍。
如需詳細資訊,請參閱 判定樹系。
如何設定
將雙類別判定樹系元件新增至 Azure 機器學習 中的管線,然後開啟元件的 [屬性] 窗格。
您可以在 機器學習 下找到元件。 展開 [初始化],然後展開 [分類]。
針對 [重新取樣方法],選擇用來建立個別樹狀結構的方法。 您可以選擇 [Bagging ] 或 [複寫]。
嘮叨:Bagging 也稱為 啟動程序匯總。 在此方法中,每個樹狀結構都會在新的樣本上成長,其建立方式是隨機取樣原始數據集並取代,直到您擁有原始數據集的大小為止。
模型的輸出會透過 投票來結合,這是匯總的形式。 分類判定樹系中的每個樹狀結構都會輸出標籤的不正規頻率直方圖。 匯總是加總這些直方圖並正規化,以取得每個標籤的「機率」。 如此一來,具有高預測信心的樹狀結構在合奏的最終決定中會有更大的權重。
如需詳細資訊,請參閱Bootstrap匯總的維琪百科專案。
復寫:在複寫中,每個樹狀結構都會在完全相同的輸入數據上定型。 每個樹狀節點會使用哪一個分割述詞的判斷是隨機的,而且樹狀結構會多樣化。
藉由設定 [建立定型定型器模式 ] 選項,指定您要如何定型模型。
單一參數:如果您知道如何設定模型,您可以提供一組特定的值做為自變數。
參數範圍:如果您不確定最佳參數,您可以使用微調模型超參數位件來尋找最佳參數。 您提供一些值範圍,而定型器會逐一查看設定的多個組合,以判斷產生最佳結果的值組合。
針對 判定樹數目,輸入可在合奏中建立的判定樹數目上限。 藉由建立更多判定樹,您可能會獲得更好的涵蓋範圍,但定型時間會增加。
注意
如果您將值設定為 1。 不過,只能產生一個樹狀結構(具有初始參數集的樹狀結構),而且不會再執行任何反覆專案。
針對 判定樹的最大深度,輸入數位以限制任何判定樹的最大深度。 增加樹狀結構的深度可能會增加精確度,但有一些過度學習和增加訓練時間的風險。
針對 每個分葉節點的樣本數目下限,表示樹狀結構中建立任何終端節點(分葉)所需的最小案例數目。
藉由增加此值,您可以增加建立新規則的臨界值。 例如,預設值為 1,即使是單一案例,也會導致建立新的規則。 如果您將值增加至 5,定型數據必須包含至少五個符合相同條件的案例。
選取 [ 允許類別特徵 的未知值] 選項,在定型或驗證集中建立未知值的群組。 模型的已知值可能較不精確,但可為新的(未知)值提供更好的預測。
如果您取消選取此選項,模型只能接受定型數據中包含的值。
附加加上標籤的數據集,並定型模型:
如果您將 [建立定型器模式] 設定為 [單一參數],請連接已標記的數據集和定型模型元件。
如果您將 [建立定型器模式] 設定為 [參數範圍],請使用 [微調模型超參數] 連接已標記的數據集並定型模型。
結果
完成定型之後:
若要儲存已定型模型的快照集,請選取 [定型模型] 元件右面板中的 [輸出] 索引標籤。 選取 [ 註冊數據集] 圖示,將模型儲存為可重複使用的元件。
若要使用模型進行評分,請將 評分模型 元件新增至管線。