轉換為指標值
重要
Machine Learning 工作室 (傳統) 的支援將於 2024 年 8 月 31 日結束。 建議您在該日期之前轉換成 Azure Machine Learning。
自 2021 年 12 月 1 日起,您將無法建立新的 Machine Learning 工作室 (傳統) 資源。 在 2024 年 8 月 31 日之前,您可以繼續使用現有的 Machine Learning 工作室 (傳統) 資源。
ML 工作室 (傳統) 文件即將淘汰,未來將不再更新。
將資料行中的類別值轉換成指標值
類別: 資料轉換/操作
模組概觀
本文描述如何使用機器學習 Studio (傳統) 中的 [轉換成指標值] 模組。 此課程模組的目的是要將包含類別值的資料行轉換成一系列的二元指標資料行,以便更輕鬆地做為機器學習模型中的功能。
如何設定轉換為指標值
將 [轉換成指標值] 模組新增至您的機器學習實驗,然後將它連接到包含您想要轉換之資料行的資料集。 您可以在 [ 資料轉換] 下的 [ 操作 ] 分類中找到此模組。
使用 [資料行選取器],選擇一或多個類別資料行。
如果您只要輸出新布林值資料行,請選取 [覆寫類別資料行] 選項。
依預設,此選項為 off,可讓您查看來源的類別資料行,以及相關的指標資料行。
提示
如果您選擇覆寫的選項,則不會實際刪除或修改來源資料行。 相反地,會產生新的資料行並顯示在輸出資料集內,而來源資料行仍會在工作區中提供使用。 如果您需要查看原始資料,您隨時都可以使用「 加入資料行 」模組來重新加入來源資料行。
執行實驗。
結果
例如,假設您有一個分數為的資料行,指出伺服器是否有高、中或低的失敗機率。
伺服器識別碼 | 失敗分數 |
---|---|
10301 | 低 |
10302 | 中 |
10303 | 高 |
當您套用 轉換成指標值時,標籤的單一資料行會轉換成包含布林值的多個資料行:
伺服器識別碼 | 失敗分數 - 低 | 失敗分數 - 中 | 失敗分數 - 高 |
---|---|---|---|
10301 | 1 | 0 | 0 |
10302 | 0 | 1 | 0 |
10303 | 0 | 0 | 1 |
轉換的運作方式如下:
在描述風險的失敗分數資料行中,只有三個可能的值 (高、中和低),而且沒有遺漏值。 因此,只會建立三個新的資料行。
新的指標資料行會根據資料行標題和來源資料行的值命名,使用此模式:<來源資料行>- <資料值>。
只有一個指標資料行中應該有1個,而所有其他指標資料行中應該有0個。 這是因為每一部伺服器只能有一個風險評等。
您現在可以使用三個指標資料行做為特徵,並使用與不同風險層級相關聯的其他屬性來分析其相互關聯。
範例
若要查看如何使用此模組的範例,請參閱 Azure AI 資源庫:
Breast 癌症偵測:患者會根據患者識別碼分類收納到群組中,然後使用 指標值 來旗標患者所屬的群組。 稍後,評分模型時會使用群組指標。
直接行銷:使用「套用 數學運算」來比較機率和常數,以及指出分數高於或低於常數的 Yes/No 值是否會轉換成新的指標資料行。
網路入侵偵測:記錄資料是從 Azure 儲存體載入的。 類別變數 (例如,說明若攻擊是 rootkit 或緩衝區溢位) 會轉換為分類資料行,然後展開為多個指標值。
技術說明
本節包含實作詳細資料、提示和常見問題集的解答。
使用提示
只有標示為類別的資料行才能轉換成指標資料行。 如果您看到這個錯誤,可能是您選取的其中一個資料行不是類別目錄:
錯誤 0056:名稱 <資料行名稱> 的資料行不在允許的類別中。
根據預設,大部分的字串資料行都會以字串特徵的形式處理,因此您必須使用 [ 編輯中繼資料] 將它們明確標示為類別。
如果您未選取至少一個類別資料行,就會顯示錯誤。
您可以轉換為指標資料行的資料行數目沒有任何限制。 不過,因為值的每個資料行都可能產生多個指標資料行,所以您可能想要一次只轉換和檢查幾個資料行。
如果資料行包含遺漏值,則會為遺漏的分類建立個別的指標資料行,並使用下列名稱:<來源資料行>- 遺漏
如果您轉換為指標值的資料行包含數字,則必須將它們標示為類別,就像任何其他特徵資料行一樣。 當您這麼做之後,就會將數字視為離散值。 例如,如果您的數值資料行的 MPG 值範圍介於 25 到 30 之間,則會為每個離散值建立新的指標資料行:
請確定 高速公路 MPG -25 高速公路 MPG -26 高速公路 MPG -27 高速公路 MPG -28 高速公路 MPG -29 高速公路 MPG -30 Mg-alfa Romeo 0 0 0 0 0 1 若要避免得到大量的指標資料行,我們建議您先檢查資料行中的值數目,並適當地將資料分類或量化。
預期的輸入
名稱 | 類型 | 說明 |
---|---|---|
資料集 | 資料表 | 含類別資料行的資料集 |
模組參數
名稱 | 範圍 | 類型 | 預設 | 描述 |
---|---|---|---|---|
要轉換的類別資料行 | 任意 | ColumnSelection | 選取要轉換成指標矩陣的類別資料行。 | |
覆寫類別資料行 | 任意 | 布林值 | false | 如果為 True,則覆寫已選取的類別資料行,否則將產生的指標矩陣附加至資料集。 |
輸出
名稱 | 類型 | 說明 |
---|---|---|
結果資料集 | 資料表 | 含要轉換成指標矩陣之類別資料行的資料集。 |