聯結資料
本文說明如何使用 Azure 機器學習 設計工具中的聯結數據元件,使用資料庫樣式聯結作業合併兩個數據集。
如何設定聯結數據
若要在兩個數據集上執行聯結,它們應該與索引鍵數據行相關。 也支援使用多個數據行的複合索引鍵。
新增您想要合併的數據集,然後將 [聯結數據] 元件拖曳至管線。
您可以在 [資料轉換] 類別的 [操作] 下找到元件。
將數據集聯機到 聯結數據 元件。
選取 [ 啟動數據行選取器 ] 以選擇索引鍵數據行。。 請記得為左右輸入選擇數據行。
針對單一索引鍵:
針對這兩個輸入選取單一索引鍵數據行。
針對複合索引鍵:
依相同順序,從左輸入和向右輸入選取所有索引鍵數據行。 聯結數據元件會在所有索引鍵數據行相符時聯結數據表。 如果數據行順序與原始數據表不同,請檢查 [允許重複專案並保留選取範圍中的數據行順序] 選項。
如果您想要在文字數據行聯結上保留區分大小寫,請選取 [比對大小寫] 選項。
使用 [ 聯結類型 ] 下拉式清單來指定應該如何合併數據集。
內部聯結: 內部聯結 是最常見的聯結作業。 只有當索引鍵數據行的值相符時,才會傳回合並的數據列。
左外部聯接: 左外部聯接 會傳回左數據表中所有數據列的聯結數據列。 當左數據表中的數據列在右數據表中沒有相符的數據列時,傳回的數據列會包含來自右數據表之所有數據行的遺漏值。 您也可以指定遺漏值的取代值。
完整外部聯接:完整外部聯結會傳回左數據表 (table1) 和右數據表 (table2) 的所有數據列。
針對其中一個數據表中沒有相符數據列的每一個數據列,結果會包含包含遺漏值的數據列。
左半聯結: 當索引鍵數據行的值相符時,左半聯結 只會傳回左數據表的值。
針對 [將右鍵數據行保留在聯結數據表] 選項中:
- 選取此選項可檢視兩個輸入數據表中的索引鍵。
- 取消選取 ,只傳回左輸入中的索引鍵數據行。
提交管線。
若要檢視結果,請以滑鼠右鍵按兩下 [聯結數據 ],然後選取 [ 可視化]。