二元決策樹系

發行項
05/06/2019

重要

Machine Learning 工作室 (傳統) 的支援將於 2024 年 8 月 31 日結束。建議您在該日期之前轉換成 Azure Machine Learning。

自 2021 年 12 月 1 日起，您將無法建立新的 Machine Learning 工作室 (傳統) 資源。在 2024 年 8 月 31 日之前，您可以繼續使用現有的 Machine Learning 工作室 (傳統) 資源。

請參閱將機器學習專案從 ML 工作室 (傳統) 移至 Azure Machine Learning 的相關資訊。
深入瞭解Azure Machine Learning。

ML 工作室 (傳統) 文件即將淘汰，未來將不再更新。

使用決策樹系演算法建立二級分類模型

類別：機器學習/初始化模型/分類

注意

適用于：僅限機器學習 Studio (傳統)

Azure Machine Learning 設計工具中提供類似的拖放模組。

模組概觀

本文說明如何使用機器學習 Studio (傳統) 中的 [二級決策樹系] 模組，根據決策樹系演算法建立機器學習模型。

決策樹系是快速、監督的集團模型。如果您想要預測的目標最多有兩個結果，此模組是不錯的選擇。如果您不確定如何設定決策樹模型以獲得最佳結果，建議您使用 [ 微調模型超參數 ] 模組來定型及測試多個模型。微調可逐一查看多個可能性，並尋找適合您的最佳解決方案。

了解決策樹系

決策樹系演算法是一種集團學習方法，適用於分類工作。集團方法是以一般原則為基礎，而不是依賴單一模型，您可以建立多個相關模型並透過某種方式合併，以取得更佳的結果和更通用的模型。一般而言，集團模型比單一決策樹的涵蓋範圍更廣、精確度更高。

有許多方式可以建立個別的模型並合併為集團。決策樹系這項特定的執行方式是建立多個決策樹，並針對最常見的輸出類別進行投票。投票是在集團模型中產生結果的其中一種常見方法。

許多個別的分類樹狀結構在建立時都會使用整個資料集，但採用不同 (通常是隨機) 的起點。這與隨機樹系方法不同，個別決策樹可能只會使用部分資料或特徵的隨機部分。
決策樹系樹狀結構中的每個樹狀結構，都會輸出非正規化的標籤頻率長條圖。
匯總程式會加總這些長條圖並標準化結果，以取得每個標籤的「機率」。
具有高預測信賴度的樹狀結構在集團的最終決策中會有較高的加權。

決策樹在分類工作方面通常有許多優點：

可擷取非線性決策界限。
您可以使用大量資料進行訓練和預測，因為決策樹在計算和記憶體使用量中都非常高效。
特徵選取已整合在訓練和分類流程中。
樹狀結構可以容納雜訊資料和許多功能。
決策樹是非參數化的模型，因此可以處理各種散發的資料。

不過，簡單決策樹可能過度擬合資料，且通用性比樹狀結構集團更低。

如需詳細資訊，請參閱判定樹系或《技術提示》一節中所列的其他檔。

如何設定 Two-Class 決策樹系

將 [雙類別決策樹系] 模組新增至機器學習 Studio (傳統) 的實驗，然後開啟模組的 [屬性] 窗格。

您可以在機器學習中找到此模組。展開 [初始化]，接著展開 [分類]。
針對 [重新取樣方法]，選擇個別樹狀結構所使用的建立方法。您可以選擇 [封袋] 或 [複寫]。
- 封袋：封袋又稱為「啟動程序彙總」。在這個方法中，每個樹狀結構都會在新的範例中成長，透過取代來隨機取樣原始資料集進行建立，直到資料集與原始資料集的大小相等為止。
  
  模型的輸出會依據投票合併，投票是彙總的一種形式。分類決策樹系中的每個樹狀結構都會輸出標籤的非 normalised 頻率長條圖。匯總是加總這些長條圖和 normalise，以取得每個標籤的「機率」。如此一來，具有高預測信賴度的樹狀結構在集團的最終決策中會有較高的加權。
  
  如需詳細資訊，請參閱啟動程式彙總的維基百科條目。
- 複寫：在複寫中，每個樹狀結構都會以完全相同的輸入資料進行訓練。每個樹狀節點所使用的分割述詞判斷會保持隨機，使樹狀結構具有差異。
  
  如需有關使用 [複寫 ] 選項定型 程式的詳細資訊，請參閱技術提示一節中所列的白皮書。
設定 [建立定型模式] 選項來指定要如何定型模型。
- 單一參數：如果您知道要如何設定模型，您可以提供一組特定值做為引數。
- 參數範圍：如果您不確定最佳參數，可以藉由指定多個值並使用微調模型超參數模組尋找最佳的設定，找到最佳的參數。講師會反復查看您所提供的多個設定組合，並判斷產生最佳模型的值組合。
針對 [決策樹的數目]，請輸入集團內可建立的決策樹數目上限。藉由建立多個決策樹，您或許能夠有較佳的涵蓋範圍，但是定型時間會拉長。

注意

此值也會控制視覺化定型模型時所顯示的樹狀結構數目。如果您想要查看或列印單一樹狀結構，您可以將值設定為1。不過，只能產生一個樹狀 (具有初始參數集的樹狀)，且不會進一步反覆運算。
針對 [決策樹的最大深度]，請輸入位數以限制任何決策樹的最大深度。增加樹狀結構的深度可增加有效位數，但可能會有過度配適及定型時間增加的風險。
針對 [每個節點的隨機分割數目]：輸入建立樹狀結構的每個節點時所要使用的分割數目。分割意指樹狀結構的每個層級 (節點) 中的特徵是隨機分割的。
針對 [每個分葉節點的樣本數下限]，請指出在樹狀結構中建立任何終端節點 (分葉) 所需的最低案例數目。

藉由增加此值，您會增加建立新規則的臨界值。例如，若預設值是 1，即使單一案例可能會造成新規則的建立。如果您將此值增加至 5，則定型資料至少要包含 5 個案例，才會符合相同的條件。
選取 [類別特徵中允許未知值] 選項，可以在訓練或驗證集中建立未知值的群組。此模型對於已知值可能較不精確，但針對新的 (未知) 值可提供更佳的預測。

如果您取消選取此選項，則模型只會接受訓練資料中包含的值。
附加已加上標籤的資料集和其中一個定型模組：
- 如果您將 [ 建立定型模式] 設定為 [ 單一參數]，請使用「定型模型」模組。
- 如果您將 [ 建立定型模式] 設定為 [ 參數範圍]，請使用 [ 微調模型超參數]。
注意

如果您將參數範圍傳遞給定型模型，則只會使用參數範圍清單中的第一個值。

如果您將一組參數值傳遞至微調模型超參數模組，當它預期每個參數的設定範圍時，會忽略這些值，並使用學習模組的預設值。

如果您選取 [ 參數範圍 ] 選項，並輸入任何參數的單一值，就會在整個清除中使用該單一值，即使其他參數會在某個範圍的值之間變更也一樣。

結果

定型完成後：

若要查看在每個反復專案上建立的樹狀結構，請以滑鼠右鍵按一下 [ 定型模型模組]，然後選取要視覺化的 定型模型 。如果您使用 [ 微調模型超參數]，請以滑鼠右鍵按一下模組，然後選取 定型的最佳模型 ，將最佳模型視覺化。

按一下每個樹狀結構，向下切入分割並查看每個節點的規則。
若要儲存模型的快照集，請以滑鼠右鍵按一下 定型的模型 輸出，然後選取 [ 儲存模型]。在後續執行實驗時，不會更新儲存的模型。
若要使用模型進行評分，請將 [ 評分模型 ] 模組新增至實驗。

範例

如需如何在機器學習中使用決策樹系的範例，請參閱 Azure AI 資源庫中的範例實驗：

新聞分類：比較多元分類器與使用 雙類別決策樹 系演算法搭配「一對多」多元分類建立的模型。
預測性維護：使用 二級決策樹 系演算法的擴充逐步解說，可預測資產在特定時間範圍內是否會失敗。

技術說明

本章節包含其他的執行詳細資料、研究和常見問題。

使用提示

如果您的資料有限，或想要將定型模型所花費的時間降到最低，請嘗試下列設定：

有限的定型集

如果定型集只包含少數的執行個體：

使用較多的決策樹來建立決策樹系 (例如，超過 20 個)。
使用 [封袋] 選項來重新取樣。
每個節點指定大量的隨機分割 (例如，超過 1,000 個)。

有限的定型時間

如果定型集包含大量的執行個體，而且定型時間有限：

使用較少的決策樹 (例如，5-10) 建立決策樹系。
使用 [複寫] 選項來重新取樣。
每個節點指定較少的隨機分割 (例如，少於 100 個)。

實作詳細資料

Microsoft Research 提供的這篇文章提供有關使用決策樹之集團方法的實用資訊。從墩到樹狀結構，到樹系。

如需有關使用 [複寫] 選項定型程式的詳細資訊，請參閱電腦視覺和醫療影像分析的決策樹系。Criminisi 和 Shotton。Springer link 2013。

模組參數

名稱	範圍	類型	預設	描述
重新取樣方法	任意	ResamplingMethod	Bagging	選擇重新取樣方法
決策樹的數目	>=1	整數	8	指定在集團中建立的決策樹個數
決策樹的最大深度	>=1	整數	32	指定可建立的任何決策樹的最大深度
每個節點的隨機分割數目	>=1	整數	128	指定每個節點產生的分割數目，以從中選取最佳的分割
每一個葉節點的樣本數下限	>=1	整數	1	指定要產生葉節點所需的最少定型樣本數
類別特徵中允許未知值	任意	布林值	True	指出現有類別特徵的未知值是否可以對應至新的額外特徵

輸出

名稱	類型	描述
未定型的模型	ILearner 介面	未定型的二元分類模型

另請參閱

分類
 決策樹系迴歸
 多元決策樹系
 A-Z 模組清單

共用方式為