如何在 Microsoft Fabric 中使用 Data Wrangler 加速資料準備
Data Wrangler 工具是筆記本型的資源,可提供沉浸式介面以進行探索性資料分析。 它結合了類格資料顯示、動態摘要統計資料、內建視覺效果,以及一般資料清理作業的程式庫。 您可使用幾個步驟來套用每個作業。 您可以即時更新資料顯示,並在 pandas 或 PySpark 中產生程式碼,再以可重複使用的函式儲存回筆記本。 本文著重於 pandas DataFrames 的探索與轉換。 如需在 Spark DataFrame 上使用 Data Wrangler 的詳細資訊,請瀏覽此資源。
必要條件
取得 Microsoft Fabric 訂用帳戶。 或註冊免費的 Microsoft Fabric 試用版。
登入 Microsoft Fabric。
使用首頁左側的體驗切換器,切換至 Synapse 資料科學體驗。
限制
- 目前僅針對 Pandas DataFrame 支援自訂程式碼作業。
- 儘管您可以最小化或隱藏介面的不同部分,以適應較小的螢幕,但 Data Wrangler 顯示在大型監視器上效果最佳。
啟動 Data Wrangler
您可以直接從 Microsoft Fabric 筆記本啟動 Data Wrangler,以探索及轉換任何 Pandas 或 Spark DataFrame。 如需在 Spark DataFrame 上使用 Data Wrangler 的詳細資訊,請瀏覽此隨附文章。 此程式碼片段示範如何將範例資料讀入 pandas DataFrame:
import pandas as pd
# Read a CSV into a Pandas DataFrame
df = pd.read_csv("https://raw.githubusercontent.com/plotly/datasets/master/titanic.csv")
display(df)
在筆記本功能區 [首頁] 索引標籤中,使用 [Data Wrangler] 下拉式清單提示來瀏覽可供編輯的使用中 DataFrame。 選取您想要在 Data Wrangler 中開啟的內容。
提示
當筆記本核心忙碌時,無法開啟 Data Wrangler。 執行的資料格必須在 Data Wrangler 啟動之前完成其執行,如下列螢幕擷取畫面所示:
選擇自訂範例
若要使用 Data Wrangler 開啟任何作用中 DataFrame 的自訂範例,請從下拉式清單中選取 [選擇自訂範例],如下列螢幕擷取畫面所示:
這會啟動包含選項的快顯,以指定所需範例的大小 (資料列數目) 和取樣方法 (第一條記錄、最後一條記錄或隨機集)。 DataFrame 的前 5,000 個資料列會作為預設的範例大小,如下列螢幕擷取畫面所示:
檢視摘要統計資料
當 Data Wrangler 載入時,會在 [摘要] 面板中顯示所選 DataFrame 的描述性概觀。 此概觀包含 DataFrame 維度、其遺漏值等的相關資訊。 在 Data Wrangler 方格中選取任何資料行時,會提示 [摘要] 面板更新並顯示有關該特定資料行的描述性統計資料。 每個資料行的快速見解也可在其標頭中取得。
提示
資料行特定的統計資料和視覺物件 (無論是在 [摘要] 面板中還是在資料行標頭中),都取決於資料行資料類型。 例如,只有在資料行轉換成數值類型時,數值資料行的量化長條圖才會出現在資料行標頭中,如下列螢幕擷取畫面所示:
瀏覽資料清理作業
可在 [作業] 面板中找到可搜尋的資料清理步驟清單。 從 [作業] 面板中,選取資料清理步驟會提示您提供目標資料行或資料行,以及完成步驟的任何必要參數。 例如,以數值方式調整資料行的提示需要新的值範圍,如下列螢幕擷取畫面所示:
提示
您可以從每個資料行標頭的功能表中套用較小的作業選取範圍,如下列螢幕擷取畫面所示:
預覽和套用作業
Data Wrangler 顯示方格會自動預覽所選作業的結果,且對應的程式碼會自動出現在方格下方的面板中。 若要提交預覽的程式碼,請在任一位置選取 [套用]。 若要刪除預覽的程式碼並嘗試新的作業,請選取 [捨棄],如下列螢幕擷取畫面所示:
套用作業之後,Data Wrangler 顯示方格和摘要統計資料會更新以反映結果。 程式碼會出現在 [清理步驟] 面板中已提交的作業執行清單中,如下列螢幕擷取畫面所示:
提示
您始終可以復原最近套用的步驟。 在 [清理步驟] 面板中,如果您將游標停留在最近套用的步驟上方,就會顯示垃圾桶圖示,如下列螢幕擷取畫面所示:
下表摘要說明 Data Wrangler 目前支援的運算:
運算 | 說明 |
---|---|
Sort | 資料行依遞增或遞減順序來排序 |
Filter | 根據一或多個條件篩選資料列 |
獨熱編碼 | 針對現有資料行中的每個唯一值建立新的資料行,指出每個資料列是否存在或不存在這些值 |
具有分隔符號的獨熱編碼 | 使用分隔符號對類別資料進行分割和獨熱編碼 |
變更資料行類型 | 變更資料行的資料類型 |
卸除資料行 | 刪除一或多個資料行 |
選取資料行 | 選擇要保留的一或多個資料行,並刪除其餘資料行 |
重新命名資料行 | 重新命名資料行 |
卸除遺漏值 | 移除具有遺漏值的資料列 |
卸除重複資料列 | 卸除一或多個資料行中具有重複值的所有資料列 |
填滿遺漏值 | 以新值取代遺漏值的資料格 |
尋找並取代 | 以完全符合的模式取代資料格 |
依資料行和彙總分組 | 依資料行值和彙總結果分組 |
移除空格 | 移除文字開頭和結尾的空格 |
分割文字 | 根據使用者定義的分隔符號,將一個資料行分割成數個資料行 |
將文字轉換成小寫 | 將文字轉換成小寫 |
將文字轉換成大寫 | 將文字轉換成大寫 |
縮放最小值/最大值 | 在最小值和最大值之間縮放數值資料行 |
快速填入 | 根據衍生自現有資料行的範例自動建立新的資料行 |
修改您的顯示
您可以隨時使用位於 Data Wrangler 顯示方格上方工具列中的 [檢視] 索引標籤來自訂介面。 這可以根據您的喜好設定和螢幕大小來隱藏或顯示不同的窗格,如下列螢幕擷取畫面所示:
儲存和匯出程式碼
Data Wrangler 顯示方格上方的工具列提供了儲存產生的程式碼的選項。 您可以將程式碼複製到剪貼板,或將其作為函式匯出至筆記本。 匯出程式碼會關閉 Data Wrangler,並將新的函式新增至筆記本中的程式碼儲存格。 您也可將清除的 DataFrame 下載為 csv 檔案。
提示
Data Wrangler 會產生只有在您手動執行新資料格時才會套用的程式碼,而且不會覆寫原始 DataFrame,如下列螢幕擷取畫面所示:
然後,您可以執行匯出的程式碼,如下列螢幕擷取畫面所示:
相關內容
- 若要在 Spark DataFrames 上試用 Data Wrangler,請瀏覽此隨附文章
- 如需 Fabric 中 Data Wrangler 的實況動作示範,請查看我們在 Cube 中 Guy 的朋友的這段影片
- 要在 Visual Studio Code 中試用 Data Wrangler,請前往 VS Code 中的 Data Wrangler
- 我們是否錯過您需要的功能? 請告訴我們! 在 Fabric Ideas 論壇上提出建議