Microsoft Fabric 中網狀架構 資料工程師 的新功能和計劃
重要
發行方案描述可能或可能尚未發行的功能。 傳遞時程表和投影功能可能會變更或可能不會出貨。 如需詳細資訊,請參閱Microsoft原則。
網狀架構 資料工程師 可讓數據工程師能夠使用 Spark 大規模轉換其數據,並建置其 Lakehouse 架構。
您所有組織數據的 Lakehouse: Lakehouse 會以單一體驗結合數據湖和數據倉儲的最佳功能。 它可讓使用者在 Lake 中以開放格式內嵌、準備及共用組織數據。 稍後您可以透過 Spark、T-SQL 和 Power BI 等多個引擎加以存取。 它提供各種數據整合選項,例如數據流和管線、外部數據源的快捷方式,以及數據產品共用功能。
高效能的Spark引擎和運行時間: Fabric數據工程為客戶提供優化的Spark運行時間,以及最新版的Spark、Delta和 Python。 它會使用 Delta Lake 作為所有引擎的通用數據表格式,讓您輕鬆共用和報告數據,而不需要行動數據。 運行時間隨附 Spark 優化,可增強查詢效能,而不需要任何設定。 它也提供入門集區和高並行模式,以加速和重複使用Spark工作階段,節省您的時間和成本。
Spark 管理員和設定: 具有適當許可權的工作區系統管理員可以建立和設定自定義集區,以優化其Spark工作負載的效能和成本。 建立者可以設定環境來安裝連結庫、選取運行時間版本,以及為其筆記本和Spark作業設定Spark屬性。
開發人員體驗: 開發人員可以使用筆記本、Spark 作業或其慣用的 IDE,在 Fabric 中撰寫和執行 Spark 程式代碼。 他們可以原生存取 Lakehouse 數據、與其他人共同作業、安裝連結庫、追蹤歷程記錄、進行內嵌監視,以及從 Spark 建議程式取得建議。 他們也可以使用 Data Wrangler 輕鬆地使用低程式代碼 UI 來準備數據。
平臺整合: 所有網狀架構數據工程專案,包括筆記本、Spark 作業、環境和 Lakehouses,都深入整合至 Fabric 平臺(企業資訊管理功能、譜系、敏感度卷標和背書)。
投資領域
功能 | 預估發行時間表 |
---|---|
Python 筆記本 | Q4 2024 |
ArcGIS GeoAnalytics for Microsoft Fabric Spark | Q4 2024 |
從 ADLS Gen2 記憶體帳戶安裝連結庫 | Q4 2024 |
筆記本即時版本控制 | Q1 2025 |
Fabric 中用戶數據函式的 VSCode 附屬延伸模組 | Q1 2025 |
Fabric 中的用戶數據函式 | Q1 2025 |
公用監視 API | Q1 2025 |
Git 和部署管線上的 Lakehouse 快捷方式元數據 | Q1 2025 |
Spark 體驗中的 Delta Lake 改善 | Q1 2025 |
支持進行中筆記本作業的快照集 | Q1 2025 |
Spark 和 Lakehouse 的 RLS/CLS 支援 | Q1 2025 |
適用於 Fabric 數據倉儲的 Spark 連接器 - 正式運作 | Q1 2025 |
能夠在 Lakehouse 中排序和篩選數據表和資料夾 | 出貨 (第4季2024) |
應用程式中的筆記本 | 出貨 (第4季2024) |
適用於 Fabric 的 VSCode 核心延伸模組 | 出貨 (第 3 季 2024) |
T-SQL 筆記本 | 出貨 (第 3 季 2024) |
Web 的 VS Code - 偵錯支援 | 出貨 (第 3 季 2024) |
管線中的高併行 | 出貨 (第 3 季 2024) |
Lakehouse 命名空間中的架構支援和工作區 | 出貨 (第 3 季 2024) |
Spark 原生執行引擎 | 出貨 (2024 年第 2 季) |
適用於 Fabric 數據倉儲的 Spark 連接器 | 出貨 (2024 年第 2 季) |
Microsoft GraphQL 的網狀架構 API | 出貨 (2024 年第 2 季) |
建立和附加環境 | 出貨 (2024 年第 2 季) |
筆記本作業的作業佇列 | 出貨 (2024 年第 2 季) |
網狀架構Spark的開放式作業許可 | 出貨 (2024 年第 2 季) |
Spark 自動調整 | 出貨 (2024 年第 1 季) |
Python 筆記本
預估發行時程表:Q4 2024
版本類型:公開預覽
網狀架構筆記本支援純 Python 體驗。 這個新解決方案是以 BI 開發人員和 資料科學家 為目標,使用較小的數據集(最多幾 GB),並使用 Pandas 和 Python 作為主要語言。 透過這項新的體驗,他們將能夠從原生 Python 語言及其原生功能和連結庫中獲益,將能夠從 Python 版本切換到另一個版本(最初將支援兩個版本),最後將受益於較佳的資源使用率,方法是使用較小的 2VCore 計算機。
ArcGIS GeoAnalytics for Microsoft Fabric Spark
預估發行時程表:Q4 2024
版本類型:公開預覽
Microsoft和 Esri 已合作將空間分析帶入 Microsoft Fabric。 此共同作業引進了新的連結庫 ArcGIS GeoAnalytics for Microsoft Fabric,在 Microsoft Fabric Spark 筆記本和 Spark 作業定義中啟用一組廣泛的空間分析(跨 資料工程師 和 資料科學 體驗/工作負載)。
這項整合式產品體驗可讓Spark開發人員或數據科學家原生使用Esri功能,在 Fabric Spark 中執行 ArcGIS GeoAnalytics 函式和工具,以進行空間轉換、擴充和模式/數據趨勢分析,甚至是巨量數據,而不需要個別的安裝和設定。
從 ADLS Gen2 記憶體帳戶安裝連結庫
預估發行時程表:Q4 2024
版本類型:公開預覽
支援使用者安裝連結庫的新來源。 透過建立裝載在其記憶體帳戶上的自定義 conda/PyPI 通道,用戶可以在其網狀架構環境中,從其記憶體帳戶安裝連結庫。
筆記本即時版本控制
預估發行時程表:2025 年第 1 季
版本類型:公開預覽
使用即時版本設定網狀架構筆記本開發人員,可以追蹤對其筆記本所做的變更歷程記錄、比較不同的版本,並視需要還原舊版。
Fabric 中用戶數據函式的 VSCode 附屬延伸模組
預估發行時程表:2025 年第 1 季
版本類型:公開預覽
用戶數據函式的 VSCode 附屬延伸模組將為 Fabric 中的用戶數據函式提供開發人員支援(編輯、建置、偵錯、發佈)。
Fabric 中的用戶數據函式
預估發行時程表:2025 年第 1 季
版本類型:公開預覽
用戶數據函式會提供強大的機制,讓您在網狀架構數據科學和數據工程工作流程中實作及重複使用自定義、特製化商業規則、提高效率和彈性。
公用監視 API
預估發行時程表:2025 年第 1 季
版本類型:公開預覽
Fabric Spark 的公用監視 API 功能旨在公開 Spark 監視 API,讓使用者能夠監視 Spark 作業進度、檢視執行工作,以及以程式設計方式存取記錄。 這項功能符合公用 API 標準,為 Spark 應用程式提供順暢的監視體驗。
Git 和部署管線上的 Lakehouse 快捷方式元數據
預估發行時程表:2025 年第 1 季
版本類型:公開預覽
若要提供吸引人的應用程式生命週期管理案例,追蹤 git 中的物件元數據和支援的部署管線勢在必行。 在 資料工程師 模組中,因為工作區已整合至 git。
在第一個反覆專案中,OneLake 快捷方式會自動跨管線階段和工作區部署。 您可以使用名為變數連結庫的新Microsoft Fabric 專案,跨階段重新對應快捷方式連線,確保客戶預期的適當隔離和環境分割。
Spark 體驗中的 Delta Lake 改善
預估發行時程表:2025 年第 1 季
發行類型:正式運作
擁有適當的預設值並符合最新的標準,對於 Microsoft Fabric 中的 Delta Lake 標準非常重要。 INT64 將是所有時間戳值的新預設編碼類型。 這會從 Apache Parquet 幾年前取代的 INT96 編碼移開。 這些變更不會影響任何讀取功能,預設為透明且相容,但可確保 Delta Lake 數據表中的所有新 parquet 檔案都會以更有效率且未來的證明方式撰寫。
我們也發行了更快速的 OPTIMIZE 命令實作,使其略過 V 排序的檔案。
支持進行中筆記本作業的快照集
預估發行時程表:2025 年第 1 季
版本類型:公開預覽
此功能可讓使用者在筆記本快照集仍在執行時檢視,這對於監視進度和疑難解答效能問題至關重要。 使用者可以查看原始原始原始程式碼、輸入參數和數據格輸出,以進一步瞭解Spark作業,而且他們可以追蹤數據格層級的Spark執行進度。 使用者也可以檢閱已完成儲存格的輸出,以驗證 Spark 應用程式的精確度,並估計剩餘的工作。 此外,會顯示已執行單元格的任何錯誤或例外狀況,協助使用者儘早識別並解決問題。
Spark 和 Lakehouse 的 RLS/CLS 支援
預估發行時程表:2025 年第 1 季
版本類型:公開預覽
此功能可讓使用者在Spark引擎內實作數據存取的安全策略。 用戶可以定義對象、數據列或數據行層級安全性,確保透過 Fabric Spark 存取時,這些原則所定義的數據受到保護,並與跨 Microsoft Fabric 啟用的 OneSecurity 方案一致。
適用於 Fabric 數據倉儲的 Spark 連接器 - 正式運作
預估發行時程表:2025 年第 1 季
發行類型:正式運作
適用於 Microsoft Fabric 數據倉儲的 Spark 連接器可讓 Spark 開發人員和數據科學家從倉儲和 Lakehouse 的 SQL 分析端點存取和使用數據。 它提供簡化的 Spark API、抽象化基礎複雜性,並只使用一行程式代碼運作,同時維護物件層級安全性 (OLS)、數據列層級安全性 (RLS) 和數據行層級安全性 (CLS) 等安全性模型。
出貨功能(秒)
能夠在 Lakehouse 中排序和篩選數據表和資料夾
出貨 (第4季2024)
發行類型:正式運作
這項功能可讓客戶依數種不同的方法排序和篩選 Lakehouse 中的數據表和資料夾,包括依字母順序排列、建立日期等等。
應用程式中的筆記本
出貨 (第4季2024)
版本類型:公開預覽
組織應用程式可在 Fabric 中以新專案的形式提供,您可以在 Fabric 應用程式中包含 Notebook,以及 Power BI 報表和儀錶板,並將其散發給商務使用者。 應用程式取用者可以與筆記本中的小工具與視覺效果互動,作為替代報告和數據探索機制。 這可讓您建立並分享豐富且吸引人的故事與您的數據。
適用於 Fabric 的 VSCode 核心延伸模組
出貨 (第 3 季 2024)
版本類型:公開預覽
適用於 Fabric 的核心 VSCode 延伸模組將提供網狀架構服務的常見開發人員支援。
T-SQL 筆記本
出貨 (第 3 季 2024)
版本類型:公開預覽
網狀架構筆記本支援 T-SQL 語言,以針對數據倉儲取用數據。 藉由將數據倉儲或 SQL 分析端點新增至筆記本,T-SQL 開發人員可以直接在連線的端點上執行查詢。 BI 分析師也可以執行跨資料庫查詢,從多個倉儲和 SQL 分析端點收集見解。 T-SQL Notebooks 為 SQL 使用者提供現有工具的絕佳撰寫替代方案,並包含網狀架構原生功能,例如共用、GIT 整合和共同作業。
Web 的 VS Code - 偵錯支援
出貨 (第 3 季 2024)
版本類型:公開預覽
適用於 Web 的 Visual Studio Code 目前在預覽版中支援撰寫和執行案例。 我們會新增至功能清單,以便使用此擴充功能來偵錯筆記本的程序代碼。
管線中的高併行
出貨 (第 3 季 2024)
發行類型:正式運作
除了筆記本中的高並行存取之外,我們也會在管線中啟用高並行存取。 這項功能可讓您使用單一會話在管線中執行多個筆記本。
Lakehouse 命名空間中的架構支援和工作區
出貨 (第 3 季 2024)
版本類型:公開預覽
這可讓您使用架構和跨工作區查詢數據來組織數據表。
Spark 原生執行引擎
出貨 (2024 年第 2 季)
版本類型:公開預覽
原生執行引擎是 Microsoft Fabric 中 Apache Spark 工作執行的開創性加強程式。 此向量化引擎會直接在 Lakehouse 基礎結構上執行 Spark 查詢,以最佳化 Spark 查詢的效能和效率。 引擎的無縫整合表示不需要修改程式碼,並避免廠商鎖定。 它支援 Apache Spark API,且與執行階段 1.2 (Spark 3.4) 相容,而且適用於 Parquet 和 Delta 格式。 不論您數據在 OneLake 中的位置為何,或如果您透過快捷方式存取資料,原生執行引擎都會將效率和效能最大化
適用於 Fabric 數據倉儲的 Spark 連接器
出貨 (2024 年第 2 季)
版本類型:公開預覽
適用於 Fabric DW 的 Spark 連接器 (資料倉儲) 可讓 Spark 開發人員或數據科學家使用簡化的 Spark API,從網狀架構數據倉儲存取及處理數據,其字面上只使用一行程式代碼。 它提供從 Fabric 數據倉儲平行查詢數據的能力,以便隨著數據量增加進行調整,並在存取數據表或檢視時,接受數據倉儲層級所定義的安全性模型 (OLS/RLS/CLS)。 此第一個版本僅支援讀取數據,且即將推出回寫數據的支援。
Microsoft GraphQL 的網狀架構 API
出貨 (2024 年第 2 季)
版本類型:公開預覽
適用於 GraphQL 的 API 可讓網狀架構數據工程師、科學家、數據解決方案架構設計人員毫不費力地公開和整合 Fabric 數據,以利用 GraphQL 的強大功能和彈性,以更回應、高效能且豐富的分析應用程式。
建立和附加環境
出貨 (2024 年第 2 季)
發行類型:正式運作
若要在更細微的層級自定義 Spark 體驗,您可以建立環境並將其連結至筆記本和 Spark 作業。 在環境中,您可以安裝連結庫、設定新的集區、設定 Spark 屬性,以及將腳本上傳至文件系統。 這可讓您更彈性地控制Spark工作負載,而不會影響工作區的預設設定。 作為 GA 的一部分,我們正在對環境進行各種改進,包括 API 支援和 CI/CD 整合。
筆記本作業的作業佇列
出貨 (2024 年第 2 季)
發行類型:正式運作
這項功能可讓已排程的 Spark Notebook 在 Spark 使用量達到可平行執行的作業數目上限時排入佇列,然後在使用量已捨棄低於允許的平行作業數目上限之後執行。
網狀架構Spark的開放式作業許可
出貨 (2024 年第 2 季)
發行類型:正式運作
使用開放式作業許可時,Fabric Spark 只會根據作業可相應減少的節點數目下限,保留作業需要啟動的核心數目下限。 如果有足夠的資源符合最低需求,這可讓更多工作接受。 如果作業稍後需要相應增加,則會根據容量中的可用核心核准或拒絕相應增加要求。
Spark 自動調整
出貨 (2024 年第 1 季)
版本類型:公開預覽
Autotune 會使用機器學習來自動分析先前的 Spark 作業執行,並調整設定以將效能優化。 它會設定 Spark 如何分割、聯結和讀取您的數據。 如此一來,它將會大幅改善效能。 我們已看到客戶作業使用這項功能執行速度會快 2 倍。