共用方式為


如何在 Microsoft Fabric 中使用 Data Wrangler 加速資料準備

Data Wrangler 工具是筆記本型的資源,可提供沉浸式介面以進行探索性資料分析。 它結合了類格資料顯示、動態摘要統計資料、內建視覺效果,以及一般資料清理作業的程式庫。 您可使用幾個步驟來套用每個作業。 您可以即時更新資料顯示,並在 pandas 或 PySpark 中產生程式碼,再以可重複使用的函式儲存回筆記本。 本文著重於 pandas DataFrames 的探索與轉換。 如需在 Spark DataFrame 上使用 Data Wrangler 的詳細資訊,請瀏覽此資源

必要條件

限制

  • 目前僅針對 Pandas DataFrame 支援自訂程式碼作業。
  • 儘管您可以最小化或隱藏介面的不同部分,以適應較小的螢幕,但 Data Wrangler 顯示在大型監視器上效果最佳。

啟動 Data Wrangler

您可以直接從 Microsoft Fabric 筆記本啟動 Data Wrangler,以探索及轉換任何 Pandas 或 Spark DataFrame。 如需在 Spark DataFrame 上使用 Data Wrangler 的詳細資訊,請瀏覽此隨附文章。 此程式碼片段示範如何將範例資料讀入 pandas DataFrame:

import pandas as pd

# Read a CSV into a Pandas DataFrame
df = pd.read_csv("https://raw.githubusercontent.com/plotly/datasets/master/titanic.csv")
display(df)

在筆記本功能區 [首頁] 索引標籤中,使用 [Data Wrangler] 下拉式清單提示來瀏覽可供編輯的使用中 DataFrame。 選取您想要在 Data Wrangler 中開啟的內容。

提示

當筆記本核心忙碌時,無法開啟 Data Wrangler。 執行的資料格必須在 Data Wrangler 啟動之前完成其執行,如下列螢幕擷取畫面所示:

顯示具有 Data Wrangler 下拉式清單提示的 Fabric 筆記本的螢幕擷取畫面。

選擇自訂範例

若要使用 Data Wrangler 開啟任何作用中 DataFrame 的自訂範例,請從下拉式清單中選取 [選擇自訂範例],如下列螢幕擷取畫面所示:

顯示 Data Wrangler 下拉式清單提示的螢幕擷取畫面,其中已概述自訂範例選項。

這會啟動包含選項的快顯,以指定所需範例的大小 (資料列數目) 和取樣方法 (第一條記錄、最後一條記錄或隨機集)。 DataFrame 的前 5,000 個資料列會作為預設的範例大小,如下列螢幕擷取畫面所示:

顯示 Data Wrangler 自訂範例提示的螢幕擷取畫面。

檢視摘要統計資料

當 Data Wrangler 載入時,會在 [摘要] 面板中顯示所選 DataFrame 的描述性概觀。 此概觀包含 DataFrame 維度、其遺漏值等的相關資訊。 在 Data Wrangler 方格中選取任何資料行時,會提示 [摘要] 面板更新並顯示有關該特定資料行的描述性統計資料。 每個資料行的快速見解也可在其標頭中取得。

提示

資料行特定的統計資料和視覺物件 (無論是在 [摘要] 面板中還是在資料行標頭中),都取決於資料行資料類型。 例如,只有在資料行轉換成數值類型時,數值資料行的量化長條圖才會出現在資料行標頭中,如下列螢幕擷取畫面所示:

顯示 Data Wrangler 顯示方格和 [摘要] 面板的螢幕擷取畫面。

瀏覽資料清理作業

可在 [作業] 面板中找到可搜尋的資料清理步驟清單。 從 [作業] 面板中,選取資料清理步驟會提示您提供目標資料行或資料行,以及完成步驟的任何必要參數。 例如,以數值方式調整資料行的提示需要新的值範圍,如下列螢幕擷取畫面所示:

顯示 [Data Wrangler 作業] 面板的螢幕擷取畫面。

提示

您可以從每個資料行標頭的功能表中套用較小的作業選取範圍,如下列螢幕擷取畫面所示:

顯示可從資料行標題功能表套用的 Data Wrangler 作業的螢幕擷取畫面。

預覽和套用作業

Data Wrangler 顯示方格會自動預覽所選作業的結果,且對應的程式碼會自動出現在方格下方的面板中。 若要提交預覽的程式碼,請在任一位置選取 [套用]。 若要刪除預覽的程式碼並嘗試新的作業,請選取 [捨棄],如下列螢幕擷取畫面所示:

顯示 Data Wrangler 作業進行中的螢幕擷取畫面。

套用作業之後,Data Wrangler 顯示方格和摘要統計資料會更新以反映結果。 程式碼會出現在 [清理步驟] 面板中已提交的作業執行清單中,如下列螢幕擷取畫面所示:

顯示已套用 Data Wrangler 作業的螢幕擷取畫面。

提示

您始終可以復原最近套用的步驟。 在 [清理步驟] 面板中,如果您將游標停留在最近套用的步驟上方,就會顯示垃圾桶圖示,如下列螢幕擷取畫面所示:

顯示可復原的 Data Wrangler 作業的螢幕擷取畫面。

下表摘要說明 Data Wrangler 目前支援的運算:

運算 說明
Sort 資料行依遞增或遞減順序來排序
Filter 根據一或多個條件篩選資料列
獨熱編碼 針對現有資料行中的每個唯一值建立新的資料行,指出每個資料列是否存在或不存在這些值
具有分隔符號的獨熱編碼 使用分隔符號對類別資料進行分割和獨熱編碼
變更資料行類型 變更資料行的資料類型
卸除資料行 刪除一或多個資料行
選取資料行 選擇要保留的一或多個資料行,並刪除其餘資料行
重新命名資料行 重新命名資料行
卸除遺漏值 移除具有遺漏值的資料列
卸除重複資料列 卸除一或多個資料行中具有重複值的所有資料列
填滿遺漏值 以新值取代遺漏值的資料格
尋找並取代 以完全符合的模式取代資料格
依資料行和彙總分組 依資料行值和彙總結果分組
移除空格 移除文字開頭和結尾的空格
分割文字 根據使用者定義的分隔符號,將一個資料行分割成數個資料行
將文字轉換成小寫 將文字轉換成小寫
將文字轉換成大寫 將文字轉換成大寫
縮放最小值/最大值 在最小值和最大值之間縮放數值資料行
快速填入 根據衍生自現有資料行的範例自動建立新的資料行

修改您的顯示

您可以隨時使用位於 Data Wrangler 顯示方格上方工具列中的 [檢視] 索引標籤來自訂介面。 這可以根據您的喜好設定和螢幕大小來隱藏或顯示不同的窗格,如下列螢幕擷取畫面所示:

顯示自訂檢視的 Data Wrangler 功能表的螢幕擷取畫面。

儲存和匯出程式碼

Data Wrangler 顯示方格上方的工具列提供了儲存產生的程式碼的選項。 您可以將程式碼複製到剪貼板,或將其作為函式匯出至筆記本。 匯出程式碼會關閉 Data Wrangler,並將新的函式新增至筆記本中的程式碼儲存格。 您也可將清除的 DataFrame 下載為 csv 檔案。

提示

Data Wrangler 會產生只有在您手動執行新資料格時才會套用的程式碼,而且不會覆寫原始 DataFrame,如下列螢幕擷取畫面所示:

顯示在 Data Wrangler 中匯出程式碼的選項。

然後,您可以執行匯出的程式碼,如下列螢幕擷取畫面所示:

顯示 Data Wrangler 在筆記本中產生的程式碼的螢幕擷取畫面。