適用於 Microsoft Fabric 的 Apache Spark 中的並行限制和佇列
適用於:✅Microsoft Fabric 中的 資料工程師 和 資料科學
Microsoft Fabric 允許透過容量配置計算單位,這是一組專用的資源,可在指定時間使用。 容量會定義資源執行活動或產生輸出的能力。 不同的項目在特定時間會耗用不同的容量。 Microsoft Fabric 會透過 Fabric SKU 和試用版提供容量。 如需詳細資訊,請參閱何謂容量?。
當使用者在 Azure 上建立 Microsoft Fabric 容量時,他們會根據其分析工作負載大小來選擇容量大小。 在 Apache Spark 中,使用者會為其保留的每個容量單位取得兩個 Apache Spark VCore 作為 SKU 的一部分。
一個容量單位 = 兩個Spark虛擬核心
一旦購買容量,系統管理員可以在 Microsoft Fabric 中的容量內建立工作區。 與容量相關聯的 Spark VCore 會在所有 Apache Spark 型項目之間共用,例如筆記本、Apache Spark 作業定義,以及在這些工作區中建立的 Lakehouse。
並行節流和佇列
Spark for Fabric 會強制執行以核心為基礎的節流和佇列機制,使用者可以根據購買的網狀架構容量 SKU 提交作業。 佇列機制是一個簡單的 FIFO 型佇列,它會檢查可用的作業位置,並在容量可供使用後自動重試作業。 當使用者在容量達到最大使用率時提交筆記本或 Lakehouse 作業,例如載入至資料表 之類的作業時,會使用可供其購買網狀架構容量 SKU 使用的所有 Spark 虛擬核心來並行執行作業,因此會使用訊息進行節流
HTTP 回應碼 430:無法執行此 Spark 作業,因為您已達到 Spark 計算或 API 速率限制。 若要執行此 Spark 作業,請透過監視中樞取消作用中的 Spark 作業,或選擇較大的容量 SKU,或稍後再試一次。
啟用佇列功能後,從管線和作業排程器觸發的筆記本作業和 Spark 作業定義會新增至佇列,並在釋放容量時自動重試。 佇列到期時間從作業提交時間設定為24小時。 在此期間之後,必須重新提交作業。
網狀架構容量已啟用高載功能,可讓您取用已購買的額外計算核心,以加速工作負載的執行。 針對 Apache Spark 工作負載高載,可讓使用者提交總共購買 3 倍 Spark 虛擬核心的工作。
注意
高載因數只會增加 Spark VCore 總數,以協助並行存取,但不會增加每個作業的最大核心數。 使用者無法提交比 Fabric 容量所提供的更多核心的工作。
下一節會 Microsoft根據網狀架構容量 SKU 列出 Spark 工作負載的各種核心型限制:
Fabric 容量 SKU | 對等Power BI SKU | Spark VCore | 具有高載因數的最大Spark VCore | 佇列限制 |
---|---|---|---|---|
F2 | - | 4 | 20 | 4 |
F4 | - | 8 | 24 | 4 |
F8 | - | 16 | 48 | 8 |
F16 | - | 32 | 96 | 16 |
F32 | - | 64 | 192 | 32 |
F64 | P1 | 128 | 384 | 64 |
F128 | P2 | 256 | 768 | 128 |
F256 | P3 | 512 | 1536 | 256 |
F512 | P4 | 1024 | 3072 | 512 |
F1024 | - | 2048 | 6144 | 1024 |
F2048 | - | 4096 | 12288 | 2048 |
試用版容量 | P1 | 128 | 128 | NA |
範例計算: F64 SKU 提供 128 個 Spark VCore。 適用於 F64 SKU 的高載因數為 3,總共提供 384 個 Spark 虛擬核心。 高載因數只會套用至協助並行,而且不會增加單一Spark作業可用的最大核心。 這表示 單一 Notebook 或 Spark 作業定義或 Lakehouse 作業 可以使用最多 128 個虛擬核心的集區組態,以及 3 個具有相同組態的作業可以同時執行。 如果筆記本使用較小的計算組態,則可以同時執行,直到最大使用率達到 384 SparkVcore 限制為止。
注意
作業的佇列到期期間為 24 小時,之後會取消佇列,且使用者必須重新提交作業執行。
Spark for Fabric 節流未強制執行任意作業型限制,而節流只會根據所購買網狀架構容量 SKU 所允許的核心數目。 根據預設,就業許可將是開放式許可控制,其中工作會根據最低核心需求來錄取。 深入瞭解開放式作業許可作業許可 和管理 如果為工作區選取預設集區 (入門集區) 選項,下表列出最大並行作業限制。
深入了解根據網狀架構容量 SKU 設定入門集區的預設入門集區組態。
磁碟層級高載
系統管理員可以設定其 Apache Spark 集區,以利用適用於整個容量的高載因數的最大 Spark 核心。 例如,將工作區附加至 F64 Fabric 容量的工作區管理員現在可以將其 Spark 集區 (入門集區或自定義集區) 設定為 384 個 Spark VCore,其中 Starter 集區的最大節點可以設定為 48 個,或者系統管理員可以設定具有 6 個最大節點的 XX 大型節點大小集區。
相關內容
- 開始使用 Microsoft Fabric 中的 Apache Spark 工作區管理設定。
- 瞭解適用於 Fabric 資料工程和資料科學體驗的 Apache Spark 計算。