快速樹系分量迴歸
本文說明 Azure 機器學習 設計工具中的模組。
使用此元件在管線中建立快速樹系分位數回歸模型。 如果您想要深入了解預測值的分佈,而不是取得單一平均預測值,快速樹系分位數回歸很有用。 此方法有許多應用程式,包括:
預測價格
評估學生績效或套用成長圖表來評估兒童發展
在變數之間只有弱式關聯性的情況下,探索預測關聯性
此回歸演算法是 受監督的 學習方法,這表示它需要包含標籤數據行的標記數據集。 因為它是回歸演算法,標籤數據行必須只包含數值。
進一步瞭解分位數回歸
有許多不同類型的回歸。 簡單地說,回歸表示將模型與以數值向量表示的目標相配。 不過,統計人員一直在開發越來越先進的回歸方法。
分位數的最簡單定義是一個值,可將一組數據分割成大小相等的群組;因此,分位數值會標示群組之間的界限。 從統計上講,分位數是從隨機變數累加分配函式 (CDF) 的反轉間隔取得的值。
雖然線性回歸模型會嘗試使用單一估計值來預測數值變數的值, 但平均值有時您需要預測目標變數的範圍或整個分佈。 已為此開發貝氏回歸和分位數回歸等技術。
分位數回歸可協助您了解預測值的分佈。 樹狀分位數回歸模型,例如此元件中使用的分位數回歸模型,具有可用來預測非參數分佈的額外優點。
如何設定快速樹系分位數回歸
將 快速樹系分位數回歸 元件新增至設計工具中的管線。 您可以在 [回歸] 類別的 [機器學習 演演算法] 下找到此元件。
在 [快速樹系分位數回歸] 元件的右窗格中,藉由設定 [建立定型定型器模式] 選項,指定您要如何定型模型。
樹狀結構數目,輸入可在合奏中建立的樹狀結構數目上限。 如果您建立更多樹狀結構,通常會導致更高的精確度,但代價是較長的訓練時間。
葉數,輸入可在任何樹狀結構中建立的葉數上限或終端節點數目。
形成分葉所需的定型實例數目下限,指定樹狀結構中建立任何終端節點(分葉)所需的範例數目下限。
藉由增加此值,您可以增加建立新規則的臨界值。 例如,預設值為 1,即使是單一案例,也會導致建立新的規則。 如果您將值增加到 5,定型數據必須包含至少 5 個符合相同條件的案例。
標記分數,指定介於 0 到 1 之間的數位,代表建置每個分位數時要使用的樣本分數。 系統會隨機選擇樣本,並取代。
分割分數,輸入介於0到1之間的數位,代表在樹狀結構的每個分割中使用的特徵分數。 所使用的功能一律會隨機選擇。
要估計的 Quantiles,輸入要讓模型定型和建立預測的分號分隔清單。
例如,如果您要建置估計四分位數的模型,您會輸入
0.25; 0.5; 0.75
。或者,輸入隨機數種子的值,以植入模型所使用的隨機數產生器。 默認值為 0,表示已選擇隨機種子。
如果您需要在相同數據上連續執行時重現結果,您應該提供值。
將定型資料集和未定型的模型連接到其中一個定型元件:
提交管線。
結果
完成定型之後:
- 若要儲存已定型模型的快照集,請選取定型元件,然後在右側面板中切換至 [輸出+記錄 ] 索引標籤。 按兩下 [註冊數據集] 圖示。 您可以在元件樹狀結構中找到已儲存的模型作為元件。
評估計量
您可以使用 評估模型元件 來評估已定型的模型。 針對 快速樹系分位數回歸,計量如下。
- 分位數遺失:這是模型中特定分位數的錯誤量值。
- 平均分位數損失:這隻是模型中所有考慮之分位數損失值的平均值。 它提供模型在所有分位數上執行的整體量值。