在 Azure Machine Learning 中提交 Spark 作業

發行項
11/09/2024

適用於：Azure CLI ml 延伸模組 v2 (目前)Python SDK azure-ai-ml v2 (目前)

Azure 機器學習支持獨立機器學習作業提交，以及建立涉及多個機器學習工作流程步驟的機器學習管線。 Azure Machine Learning 可處理的建立目標，包含獨立 Spark 作業，以及可在 Azure Machine Learning 管線中使用的可重複使用 Spark 元件。在本文中，您將瞭解如何使用下列專案提交 Spark 作業：

Azure Machine Learning 工作室 UI
Azure Machine Learning CLI
Azure Machine Learning SDK

如需了解 Azure Machine Learning 中的 Apache Spark，請造訪這項資源。

必要條件

適用於：Azure CLI ml 延伸模組 v2 (目前)

Azure 訂用帳戶；如果您沒有 Azure 訂用帳戶，請在開始前建立免費帳戶。
Azure Machine Learning 工作區。如需詳細資訊，請造訪建立工作區資源。
建立 Azure 機器學習計算實例。
安裝 Azure 機器學習 CLI。
(選擇性)：Azure Machine Learning 工作區中連結的 Synapse Spark 集區。

注意

如需使用 Azure 機器學習無伺服器 Spark 計算和連結 Synapse Spark 集區時的資源存取詳細資訊，請造訪確保 Spark 作業的資源存取。
Azure 機器學習提供共用配額集區，所有使用者都可以從中存取計算配額，以在有限的時間內執行測試。當您使用無伺服器 Spark 計算時，Azure Machine Learning 可讓您短暫存取此共用配額。

使用 CLI 第 2 版連結使用者指派的受控識別

建立 YAML 檔案，定義應連結至工作區的使用者指派受控識別：

identity:
  type: system_assigned,user_assigned
  tenant_id: <TENANT_ID>
  user_assigned_identities:
    '/subscriptions/<SUBSCRIPTION_ID/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.ManagedIdentity/userAssignedIdentities/<AML_USER_MANAGED_ID>':
      {}

在 --file 參數中，使用 az ml workspace update 命令中的 YAML 檔案連結使用者指派的受控識別：

az ml workspace update --subscription <SUBSCRIPTION_ID> --resource-group <RESOURCE_GROUP> --name <AML_WORKSPACE_NAME> --file <YAML_FILE_NAME>.yaml

使用 `ARMClient` 連結使用者指派的受控識別

安裝 ARMClient，這是一個簡單的命令列工具，可叫用 Azure Resource Manager API。

建立 JSON 檔案，定義應連結至工作區的使用者指派受控識別：

{
    "properties":{
    },
    "location": "<AZURE_REGION>",
    "identity":{
        "type":"SystemAssigned,UserAssigned",
        "userAssignedIdentities":{
            "/subscriptions/<SUBSCRIPTION_ID/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.ManagedIdentity/userAssignedIdentities/<AML_USER_MANAGED_ID>": { }
        }
    }
}

在 PowerShell 提示或命令提示字元中執行下列命令，將使用者指派的受控識別連結至工作區。

armclient PATCH https://management.azure.com/subscriptions/<SUBSCRIPTION_ID>/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.MachineLearningServices/workspaces/<AML_WORKSPACE_NAME>?api-version=2022-05-01 '@<JSON_FILE_NAME>.json'

注意

為了確保 Spark 作業成功執行，請在用於資料輸入和輸出的 Azure 儲存體帳戶上，將參與者和儲存體 Blob 資料參與者角色指派給 Spark 作業所使用的身分識別
Azure Synapse Analytics 工作區中應啟用公用網路存取，以確保能使用連結的 Synapse Spark 集區 (機器翻譯) 成功執行 Spark 作業。
在與它相關聯的受控虛擬網路的 Azure Synapse 工作區中，如果連結的 Synapse Spark 集區指向 Synapse Spark 集區，您應該將受控私人端點設定為記憶體帳戶，以確保數據存取。
無伺服器 Spark 計算支援 Azure Machine Learning 受控虛擬網路。若為無伺服器 Spark 計算佈建受控網路，那麼也應佈建記憶體帳戶的對應私人端點 (機器翻譯)，以確保資料存取。

提交獨立 Spark 作業

針對 Python 腳本參數化進行必要的變更之後，您可以使用以互動式數據整頓開發的 Python 腳本來提交批次作業，以處理大量數據。您可以將數據整頓批次作業提交為獨立的 Spark 作業。

Spark 作業需要採用引數的 Python 指令碼。您可以修改原本從互動式數據整頓開發的 Python 程式代碼，以開發該腳本。這裡會顯示範例 Python 指令碼。

# titanic.py
import argparse
from operator import add
import pyspark.pandas as pd
from pyspark.ml.feature import Imputer

parser = argparse.ArgumentParser()
parser.add_argument("--titanic_data")
parser.add_argument("--wrangled_data")

args = parser.parse_args()
print(args.wrangled_data)
print(args.titanic_data)

df = pd.read_csv(args.titanic_data, index_col="PassengerId")
imputer = Imputer(inputCols=["Age"], outputCol="Age").setStrategy(
    "mean"
)  # Replace missing values in Age column with the mean value
df.fillna(
    value={"Cabin": "None"}, inplace=True
)  # Fill Cabin column with value "None" if missing
df.dropna(inplace=True)  # Drop the rows which still have any missing value
df.to_csv(args.wrangled_data, index_col="PassengerId")

注意

此 Python 程式碼範例會使用 pyspark.pandas。只有 Spark 執行階段 3.2 版或更新版本才支援此功能。

此文稿會採用兩個自變數，分別傳遞輸入資料和輸出資料夾的路徑：

--titanic_data
--wrangled_data

適用於：Azure CLI ml 延伸模組 v2 (目前)

若要建立作業，您可以將獨立 Spark 作業定義為 YAML 規格檔案，您可以在命令中 az ml job create 搭配 --file 參數使用。在 YAML 檔案中定義這些屬性：

Spark 作業規格中的 YAML 屬性

type - 設定為 spark。
code - 定義包含此作業的原始程式碼和指令碼的資料夾位置。
entry - 定義作業的進入點。應該涵蓋下列其中一個屬性：
- file - 定義 Python 指令碼的名稱，作為作業的進入點。
- class_name - 定義伺服器做為作業進入點的類別名稱。
py_files - 定義 .zip、.egg 或 .py 檔案的清單，放置在 PYTHONPATH 中以便成功執行作業。這個屬性為選擇性。
jars - 定義要包含在 Spark 驅動程式上的 .jar 檔案清單，以及執行程式 CLASSPATH，以成功執行作業。這個屬性為選擇性。
files - 定義應該複製到每個執行程式工作目錄的檔案清單，以成功執行作業。這個屬性為選擇性。
archives - 定義應該擷取到每個執行程式工作目錄的封存清單，以成功執行作業。這個屬性為選擇性。
conf - 定義這些 Spark 驅動程式和執行程式屬性：
- spark.driver.cores：Spark 驅動程式的核心數目。
- spark.driver.memory：為 Spark 驅動程式配置的記憶體，以 GB 為單位。
- spark.executor.cores：Spark 執行程式的核心數目。
- spark.executor.memory：Spark 執行程式的記憶體配置，以 GB 為單位。
- spark.dynamicAllocation.enabled - 執行程式是否應該以動態方式配置，值為 True 或 False。
- 如果啟用執行程式的動態配置，請定義下列屬性：
  - spark.dynamicAllocation.minExecutors - 動態配置的 Spark 執行程式執行個體數目下限。
  - spark.dynamicAllocation.maxExecutors - 動態配置的 Spark 執行程式執行個體數目上限。
- 如果停用執行程式的動態配置，請定義此屬性：
  - spark.executor.instances - Spark 執行程式執行個體的數目。
environment - 用來執行作業的 Azure Machine Learning 環境。
args - 應該傳遞至作業進入點 Python 指令碼的命令列引數。如需範例，請檢閱這裡提供的 YAML 規格檔案。
resources - 此屬性會定義 Azure Machine Learning 無伺服器 Spark 計算要使用的資源。其會使用下列屬性：
- instance_type - 要用於 Spark 集區的計算執行個體類型。目前支援下列執行個體類型：
  - standard_e4s_v3
  - standard_e8s_v3
  - standard_e16s_v3
  - standard_e32s_v3
  - standard_e64s_v3
- runtime_version - 定義 Spark 執行階段版本。目前支援下列 Spark 執行階段版本：
  - 3.3
  - 3.4
    重要
    
    適用於 Apache Spark 的 Azure Synapse Analytics 執行階段：公告
    - 適用於 Apache Spark 3.3 的 Azure Synapse 執行階段：
      
      EOLA 公告日期：2024 年 7 月 12 日
      
      支援結束日期：2025 年 3 月 31 日。在此日期之後，此執行階段將停用。
    - 若想持續獲得支援和最佳效能，建議您移轉到 Apache Spark 3.4。
這是 YAML 檔案範例：
```
resources:
  instance_type: standard_e8s_v3
  runtime_version: "3.4"
```
compute - 此屬性會定義連結 Synapse Spark 集區的名稱，如下列範例所示：
```
compute: mysparkpool
```
inputs - 此屬性會定義 Spark 作業的輸入。 Spark 作業的輸入可以是常值，或是儲存在檔案或資料夾中的資料。
- 常值可以是數位、布爾值或字串。一些範例如下所示：
```
inputs:
  sampling_rate: 0.02 # a number
  hello_number: 42 # an integer
  hello_string: "Hello world" # a string
  hello_boolean: True # a boolean value
```
- 儲存在檔案或資料夾中的資料應該使用下列屬性來定義：
  - type - 將此屬性設定為 uri_file 或 uri_folder，分別用於檔案或資料夾中包含的輸入資料。
  - path - 輸入資料的 URI，例如 azureml://、abfss:// 或 wasbs://。
  - mode - 將此屬性設定為 direct。此範例顯示作業輸入的定義，稱為 $${inputs.titanic_data}}：
```
inputs:
  titanic_data:
    type: uri_file
    path: azureml://datastores/workspaceblobstore/paths/data/titanic.csv
    mode: direct
```
outputs - 此屬性會定義 Spark 作業輸出。 Spark 作業的輸出可以寫入檔案或資料夾位置，此位置是使用下列三個屬性定義的：
- type - 您可以將這個屬性設定為 uri_file 或 uri_folder，將輸出資料分別寫入檔案或資料夾。
- path - 這個屬性會定義輸出位置 URI，例如 azureml://、abfss:// 或 wasbs://。
- mode - 將此屬性設定為 direct。這個範例顯示作業輸出的定義，您可以稱之為 ${{outputs.wrangled_data}}：
```
outputs:
  wrangled_data:
    type: uri_folder
    path: azureml://datastores/workspaceblobstore/paths/data/wrangled/
    mode: direct
```
identity - 這個選擇性屬性會定義用來提交此作業的身分識別。可以有 user_identity 和 managed 值。如果 YAML 規格未定義身分識別，則 Spark 作業會使用預設身分識別。

獨立 Spark 作業

此範例 YAML 規格會顯示獨立 Spark 作業。此作業使用 Azure Machine Learning 無伺服器 Spark 計算：

$schema: http://azureml/sdk-2-0/SparkJob.json
type: spark

code: ./ 
entry:
  file: titanic.py

conf:
  spark.driver.cores: 1
  spark.driver.memory: 2g
  spark.executor.cores: 2
  spark.executor.memory: 2g
  spark.executor.instances: 2

inputs:
  titanic_data:
    type: uri_file
    path: azureml://datastores/workspaceblobstore/paths/data/titanic.csv
    mode: direct

outputs:
  wrangled_data:
    type: uri_folder
    path: azureml://datastores/workspaceblobstore/paths/data/wrangled/
    mode: direct

args: >-
  --titanic_data ${{inputs.titanic_data}}
  --wrangled_data ${{outputs.wrangled_data}}

identity:
  type: user_identity

resources:
  instance_type: standard_e4s_v3
  runtime_version: "3.4"

注意

若要使用連結的 Synapse Spark 集區，請定義上述範例 YAML 規格檔案中的 compute 屬性，而不是 resources 屬性。

您可以使用命令稍早 az ml job create 顯示的 YAML 檔案搭配 --file 參數來建立獨立 Spark 作業，如下所示：

az ml job create --file <YAML_SPECIFICATION_FILE_NAME>.yaml --subscription <SUBSCRIPTION_ID> --resource-group <RESOURCE_GROUP> --workspace-name <AML_WORKSPACE_NAME>

您可以在下列位置執行上述命令：

Azure Machine Learning 計算執行個體的終端機。
Visual Studio Code 終端機，已連線至 Azure 機器學習計算實例。
已安裝 Azure Machine Learning CLI 的本機電腦。

適用於：Python SDK azure-ai-ml v2 (目前)

使用 Python SDK 的獨立 Spark 作業

若要建立獨立 Spark 作業，請使用 azure.ai.ml.spark 函式搭配下列參數：

name - Spark 作業的名稱。
display_name - 應該在 UI 和其他位置顯示的 Spark 作業顯示名稱。
code - 包含此作業之原始程式碼和文稿的資料夾位置。
entry - 作業的進入點。此參數應為定義檔案進入點的字典。
py_files - .zip、.egg 或 .py 檔案的清單，放置在 PYTHONPATH 中以便成功執行作業。這是選擇性參數。
jars - 要包含在 Spark 驅動程式上的 .jar 檔案清單，以及執行程式 CLASSPATH，以成功執行作業。這是選擇性參數。
files - 應該複製到每個執行程式工作目錄的檔案清單，以成功執行作業。這是選擇性參數。
archives - 自動擷取並且放到每個執行程式工作目錄的封存清單，以成功執行作業。這是選擇性參數。
conf - 具有預先定義 Spark 設定機碼值組的字典。
driver_cores：為 Spark 驅動程式配置的核心數目。
driver_memory：Spark 驅動程式的已配置記憶體，其大小單位後綴k為、m、 g或 t （例如、。 512m2g
executor_cores：為 Spark 執行程式配置的核心數目。
executor_memory：Spark 執行程式設定的記憶體，其大小單位後綴k為、m、 g或 t （例如、。 512m2g
dynamic_allocation_enabled - 布林值參數，定義是否應該動態配置執行程式。
- 如果啟用執行程式的動態配置，請定義下列參數：
  - dynamic_allocation_min_executors - 動態配置的 Spark 執行程式執行個體數目下限。
  - dynamic_allocation_max_executors - 動態配置的 Spark 執行程式執行個體數目上限。
- 如果停用執行程式的動態配置，請定義下列參數：
  - executor_instances - Spark 執行程式執行個體的數目。
  - environment - 執行作業的 Azure Machine Learning 環境。這個參數應該傳遞：
    - azure.ai.ml.entities.Environment 的物件，或 Azure Machine Learning 環境名稱 (字串)。
args - 應該傳遞至作業進入點 Python 指令碼的命令列引數。如需範例，請參閱此處提供的範例程式碼。
resources - Azure Machine Learning 無伺服器 Spark 計算要使用的資源。此參數應該使用下列項目傳遞字典：
- instance_type - 此索引鍵會定義要用於無伺服器 Spark 計算的計算執行個體類型。目前支援下列執行個體類型：
  - Standard_E4S_V3
  - Standard_E8S_V3
  - Standard_E16S_V3
  - Standard_E32S_V3
  - Standard_E64S_V3
- runtime_version - 定義 Spark 執行階段版本的索引鍵。目前支援下列 Spark 執行階段版本：
  - 3.3.0
  - 3.4.0
    重要
    
    適用於 Apache Spark 的 Azure Synapse Analytics 執行階段：公告
    - 適用於 Apache Spark 3.3 的 Azure Synapse 執行階段：
      
      EOLA 公告日期：2024 年 7 月 12 日
      
      支援結束日期：2025 年 3 月 31 日。在此日期之後，此執行階段將停用。
    - 若想持續獲得支援和最佳效能，建議您移轉到 Apache Spark 3.4。
compute - 連結 Synapse Spark 集區的名稱。
inputs - Spark 作業的輸入。此參數應該傳遞字典，其中包含作業中使用的輸入資料繫結對應。此字典具有下列值：
- 字典索引鍵會定義輸入名稱
- 對應的值可能是：
  - 常值：整數、數位、布爾值或字串。
  - 類別 azure.ai.ml.Input 的物件，具有下列參數：
    - type - 將此參數設定為 uri_file 或 uri_folder，分別用於檔案或資料夾中包含的輸入資料。
    - path - 輸入資料的 URI，例如 azureml://、abfss:// 或 wasbs://。
    - mode - 將此參數設定為 direct。
outputs - Spark 作業的輸出。此參數應該傳遞字典，其中包含作業中使用的輸出資料繫結對應。此字典具有下列值：
- 字典索引鍵會定義輸出名稱
- 對應的值是類別 azure.ai.ml.Output 的物件，具有下列參數：
  - type - 分別針對輸出資料檔案或資料夾將此參數設定為 uri_file 或 uri_folder。
  - path - 輸出資料的 URI，例如 azureml://、abfss:// 或 wasbs://。
  - mode - 將此參數設定為 direct。
identity - 選擇性參數，定義用於提交此作業的身分識別。允許的值是類別的物件
- azure.ai.ml.entities.UserIdentityConfiguration 或
- azure.ai.ml.entities.ManagedIdentityConfiguration 分別用於使用者身分識別和受控識別。若未定義任何身分識別，則 Spark 作業會使用預設身分識別。

您可在下列位置提交獨立 Spark 作業：

連線至 Azure Machine Learning 計算執行個體的 Azure Machine Learning 筆記本。
連線至 Azure Machine Learning 計算執行個體的 Visual Studio Code。
已安裝適用於 Python 之 Azure Machine Learning SDK (機器翻譯) 的本機電腦。

此 Python 程式碼片段示範如何利用使用者身分識別，透過 Azure Machine Learning 無伺服器 Spark 計算來建立獨立 Spark 作業。

from azure.ai.ml import MLClient, spark, Input, Output
from azure.identity import DefaultAzureCredential
from azure.ai.ml.entities import UserIdentityConfiguration

subscription_id = "<SUBSCRIPTION_ID>"
resource_group = "<RESOURCE_GROUP>"
workspace_name = "<AML_WORKSPACE_NAME>"
ml_client = MLClient(
    DefaultAzureCredential(), subscription_id, resource_group, workspace_name
)

spark_job = spark(
    display_name="Titanic-Spark-Job-SDK",
    code="./src",
    entry={"file": "titanic.py"},
    driver_cores=1,
    driver_memory="2g",
    executor_cores=2,
    executor_memory="2g",
    executor_instances=2,
    resources={
        "instance_type": "Standard_E8S_V3",
        "runtime_version": "3.4.0",
    },
    inputs={
        "titanic_data": Input(
            type="uri_file",
            path="azureml://datastores/workspaceblobstore/paths/data/titanic.csv",
            mode="direct",
        ),
    },
    outputs={
        "wrangled_data": Output(
            type="uri_folder",
            path="azureml://datastores/workspaceblobstore/paths/data/wrangled/",
            mode="direct",
        ),
    },
    identity=UserIdentityConfiguration(),
    args="--titanic_data ${{inputs.titanic_data}} --wrangled_data ${{outputs.wrangled_data}}",
)

returned_spark_job = ml_client.jobs.create_or_update(spark_job)

# Wait until the job completes
ml_client.jobs.stream(returned_spark_job.name)

注意

若要使用連結的 Synapse Spark 集區，請在 azure.ai.ml.spark 函式中定義 compute 參數，而不是 resources。

從 Azure Machine Learning 工作室 UI 提交獨立 Spark 作業 (預覽版)

重要

此功能目前處於公開預覽。此預覽版本沒有服務等級協定，不建議用於處理生產工作負載。可能不支援特定功能，或可能已經限制功能。

如需詳細資訊，請參閱 Microsoft Azure 預覽版增補使用條款。

若要使用 Azure Machine Learning 工作室 UI 提交獨立 Spark 作業：

顯示 Azure Machine Learning 工作室 UI 中建立新 Spark 作業的螢幕擷取畫面。

選取畫面右上方的 [+ 新增]。
選取 [Spark 作業 (預覽)]。
在 [計算] 畫面上：

此螢幕快照顯示 Azure Machine Learning 工作室 UI 中新 Spark 作業的計算選取畫面。

在 [選取計算類型] 底下，針對無伺服器 Spark 計算選取 [Spark 無伺服器]，或針對連結的 Synapse Spark 集區選取 [連結的計算]。
如果您選取 [Spark 無伺服器]：
1. 選取 [虛擬機器大小]。
2. 選取 [Spark 執行階段版本]。
  重要
  
  適用於 Apache Spark 的 Azure Synapse Analytics 執行階段：公告
  - 適用於 Apache Spark 3.3 的 Azure Synapse 執行階段：
    - EOLA 公告日期：2024 年 7 月 12 日
    - 支援結束日期：2025 年 3 月 31 日。在此日期之後，此執行階段將停用。
  - 若想持續獲得支援和最佳效能，建議您移轉到 Apache Spark 3.4。
如果您選取 [連結的計算]：
1. 在 [選取 Azure Machine Learning 連結的計算] 功能表中，選取連結的 Synapse Spark 集區。
選取 [下一步]。
在 [環境] 畫面上：
1. 從清單中選取其中一個可用的環境。環境選取是選擇性的。
2. 選取 [下一步]。
在 [作業設定] 畫面上：
1. 提供作業 [名稱]。您可以使用預設產生的作業 [名稱]。
2. 從下拉式功能表選取 [實驗名稱]。
3. 在 [新增標記] 底下，提供 [名稱] 和 [值]，然後選取 [新增]。新增標記是選擇性的。
4. 在 [程式碼] 區段下：
  1. 從 [選擇程式碼位置] 下拉式清單中選取選項。選擇 [上傳本機檔案] 或 [Azure Machine Learning 工作區預設 Blob 儲存體]。
  2. 如果您選取 [ 選擇程式代碼位置]：
    - 選取 [ 瀏覽]，然後流覽至本機計算機上包含程式代碼檔案或檔案的位置。
  3. 如果您選取 Azure 機器學習工作區預設 Blob 記憶體：
    1. 在 [要上傳之程式碼檔的路徑] 底下，選取 [瀏覽]。
    2. 在標題為 [路徑選取] 的快顯畫面中，選取工作區預設 Blob 儲存體上的程式碼檔案路徑。
    3. 選取 [儲存]。
  4. 針對獨立作業輸入 [輸入檔案] 名稱。此檔案應該包含採用引數的 Python 程式碼。
  5. 若要在運行時間新增獨立作業所需的任何其他 Python 檔案或檔案，請選取 [Py 檔案] 底下的 [+ 新增檔案]，然後輸入要放在 PYTHONPATH 中以成功執行作業的.zip、 .egg或 .py 檔案名稱。可以新增多個檔案。
  6. 若要在運行時間新增獨立作業所需的任何 Jar 檔案或檔案，請選取 [Jars] 底下的 [+ 新增檔案]，並輸入.jar要包含在 Spark 驅動程式中的檔名。此外，也請新增執行程式 CLASSPATH，以便順利執行作業。可以新增多個檔案。
  7. 若要新增應該擷取至每個執行程式的工作目錄以成功執行作業的封存或封存，請選取 [封存] 下的 [+ 新增檔案]，然後輸入封存的名稱。可以新增多個封存。
  8. 新增 Py 檔案、Jars 和封存是選擇性的。
  9. 若要新增輸入，請選取 [輸入] 底下的 [+ 新增輸入] 並且
    1. 輸入 [輸入名稱]。輸入稍後必須在引數中參考這個名稱。
    2. 選取 [輸入類型]。
    3. 針對 [資料] 類型：
      1. 針對 [資料類型] 選取 [檔案] 或 [資料夾]。
      2. 針對 [資料來源] 選取 [從本機上傳]、[URI] 或 [資料存放區]。
        
        針對 [從本機上傳]，選取 [上傳路徑] 底下的 [瀏覽]，以選擇輸入檔案或資料夾。
        
        針對 [URI]，輸入儲存體資料 URI (例如 abfss:// 或 wasbs:// URI)，或輸入資料資產 azureml://。
        
        針對 [資料存放區]：
        
        從下拉式功能表中選取 [資料存放區]。
        
        在 [資料路徑] 底下，選取 [瀏覽]。
        
        在標題為 [路徑選取] 的快顯畫面中，選取工作區預設 Blob 儲存體上的程式碼檔案路徑。
        
        選取 [儲存]。
      3. 針對 [整數] 類型，針對 [輸入值] 輸入整數值。
      4. 針對 [數字] 類型，針對 [輸入值] 輸入數值。
      5. 針對 [布林值]，針對 [輸入值] 選取 [True] 或 [False]。
      6. 針對 [字串] 類型，針對 [輸入值] 輸入字串。
    4. 若要新增輸入，請選取 [輸出] 底下的 [+ 新增輸出] 和
      1. 輸入 [輸出名稱]。輸出稍後必須在引數中參考這個名稱。
      2. 針對 [輸出類型] 選取 [檔案] 或 [資料夾]。
      3. 針對 [輸出 URI 目的地]，輸入儲存體資料 URI (例如 abfss:// 或 wasbs:// URI)，或輸入資料資產 azureml://。
    5. 使用在先前的步驟中於 [輸入名稱] 和 [輸出名稱] 中定義的名稱，以及在 Python 指令碼 [輸入檔案] 中使用的輸入和輸出引數，來輸入 [引數]。例如，如果 [輸入名稱] 和 [輸出名稱] 定義為 job_input 和 job_output，且在 [輸入檔案] 中新增引數，如下所示
```
import argparse

parser = argparse.ArgumentParser()
parser.add_argument("--input_param")
parser.add_argument("--output_param")
```
    然後針對 [引數] 輸入 --input_param ${{inputs.job_input}} --output_param ${{outputs.job_output}}。
    1. 在 [Spark 組態] 區段下：
      1. 針對 [執行程式大小]：
        
        以 GB 為單位，輸入執行程式核心和執行程式 記憶體（GB） 的數目。
        
        針對 [動態配置的執行程式]，選取 [已停用] 或 [已啟用] 選項。
        
        如果執行程式動態配置為 Disabled，請輸入執行程式實例的數目。
        
        如果執行程式動態配置為 Enabled，請使用滑桿來選取執行程式數目下限和最大數目。
      2. 針對 驅動程式大小：
        
        以 GB 為單位輸入驅動程式核心和驅動程式 記憶體（GB）的數目。
        
        輸入任何其他組態的 [名稱] 和 [值] 組，然後選取 [新增]。您可以選擇性地提供 其他設定。
      3. 選取 [下一步]。
  10. 在 [ 檢閱] 畫面上：
    1. 提交作業規格之前，請先檢閱作業規格。
    2. 選取 [建立] 以提交獨立 Spark 作業。

管線作業中的 Spark 元件

Spark 元件可讓您彈性地在多個 Azure Machine Learning 管線中使用相同的元件作為管線步驟。

適用於：Azure CLI ml 延伸模組 v2 (目前)

Spark 元件的 YAML 語法與 Spark 作業規格的 YAML 語法 (機器翻譯) 大致類似。這些屬性在 Spark 元件 YAML 規格中會以不同的方式定義：

name - Spark 元件的名稱。
version - Spark 元件的版本。
display_name - 要在 UI 和其他位置顯示的 Spark 元件名稱。
description - Spark 元件的描述。
inputs- 這個屬性類似於 inputs Spark 作業規格 YAML 語法中所述的屬性，不同之處在於它不會定義 path 屬性。此程式碼片段顯示 Spark 元件 inputs 屬性的範例：
```
inputs:
  titanic_data:
    type: uri_file
    mode: direct
```
outputs- 這個屬性類似於 outputs Spark 作業規格 YAML 語法中所述的屬性，不同之處在於它不會定義 path 屬性。此程式碼片段顯示 Spark 元件 outputs 屬性的範例：
```
outputs:
  wrangled_data:
    type: uri_folder
    mode: direct
```

注意

Spark 元件不會定義 identity、 compute 或 resources 屬性。管線 YAML 規格檔案為這些屬性提供了定義。

此 YAML 規格檔案提供 Spark 元件的範例：

$schema: http://azureml/sdk-2-0/SparkComponent.json
name: titanic_spark_component
type: spark
version: 1
display_name: Titanic-Spark-Component
description: Spark component for Titanic data

code: ./src
entry:
  file: titanic.py

inputs:
  titanic_data:
    type: uri_file
    mode: direct

outputs:
  wrangled_data:
    type: uri_folder
    mode: direct

args: >-
  --titanic_data ${{inputs.titanic_data}}
  --wrangled_data ${{outputs.wrangled_data}}

conf:
  spark.driver.cores: 1
  spark.driver.memory: 2g
  spark.executor.cores: 2
  spark.executor.memory: 2g
  spark.dynamicAllocation.enabled: True
  spark.dynamicAllocation.minExecutors: 1
  spark.dynamicAllocation.maxExecutors: 4

您可以使用 Azure 機器學習管線作業中上述 YAML 規格檔案中定義的 Spark 元件。請流覽管線作業 YAML 架構資源，以深入瞭解定義管線作業的 YAML 語法。此範例顯示管線作業的 YAML 規格檔案、Spark 元件，以及 Azure Machine Learning 無伺服器 Spark 計算：

$schema: http://azureml/sdk-2-0/PipelineJob.json
type: pipeline
display_name: Titanic-Spark-CLI-Pipeline
description: Spark component for Titanic data in Pipeline

jobs:
  spark_job:
    type: spark
    component: ./spark-job-component.yaml
    inputs:
      titanic_data: 
        type: uri_file
        path: azureml://datastores/workspaceblobstore/paths/data/titanic.csv
        mode: direct

    outputs:
      wrangled_data:
        type: uri_folder
        path: azureml://datastores/workspaceblobstore/paths/data/wrangled/
        mode: direct

    identity:
      type: managed

    resources:
      instance_type: standard_e8s_v3
      runtime_version: "3.4"

注意

若要使用連結的 Synapse Spark 集區，請定義上述範例 YAML 規格檔案中的 compute 屬性，而不是 resources 屬性。

您可以使用命令中所 az ml job create 見的 YAML 規格檔案，使用 --file 參數來建立管線作業，如下所示：

az ml job create --file <YAML_SPECIFICATION_FILE_NAME>.yaml --subscription <SUBSCRIPTION_ID> --resource-group <RESOURCE_GROUP> --workspace-name <AML_WORKSPACE_NAME>

您可以在下列位置執行上述命令：

Azure Machine Learning 計算執行個體的終端機。
線上至 Azure 機器學習計算實例的 Visual Studio Code 終端機。
已安裝 Azure Machine Learning CLI 的本機電腦。

適用於：Python SDK azure-ai-ml v2 (目前)

使用 Spark 元件建立 Azure 機器學習管線，牽涉到使用 Python SDK 從元件建立 Azure 機器學習管線。 Spark 元件是使用 azure.ai.ml.spark 函式建立的。函式參數的定義方式與獨立 Spark 作業幾乎相同。 Spark 元件會以不同的方式定義這些參數：

name - Spark 元件的名稱。
display_name - 要在 UI 和其他位置顯示的 Spark 元件名稱。
inputs - 此參數類似於針對獨立 Spark 作業 (機器翻譯) 所述的 inputs 參數，不同之處在於 azure.ai.ml.Input 類別是在不使用 path 參數的情況下具現化。
outputs - 此參數類似於針對獨立 Spark 作業 (機器翻譯) 所述的 outputs 參數，不同之處在於 azure.ai.ml.Output 類別是在不使用 path 參數的情況下具現化。

注意

使用 azure.ai.ml.spark 函式建立的 Spark 元件不會定義 identity、compute 或 resources 參數。這些參數由 Azure Machine Learning 管線定義。

您可以在下列位置使用 Spark 元件提交管線作業：

連線至 Azure Machine Learning 計算執行個體的 Azure Machine Learning 筆記本。
連線至 Azure 機器學習計算實例的 Visual Studio Code。
已安裝適用於 Python 之 Azure Machine Learning SDK (機器翻譯) 的本機電腦。

此 Python 程式碼片段示範如何使用受控識別，以及建立 Azure Machine Learning 管線作業，此外還示範如何使用 Spark 元件和 Azure Machine Learning 受控（自動） Synapse 計算：

from azure.ai.ml import MLClient, dsl, spark, Input, Output
from azure.identity import DefaultAzureCredential
from azure.ai.ml.entities import ManagedIdentityConfiguration
from azure.ai.ml.constants import InputOutputModes

subscription_id = "<SUBSCRIPTION_ID>"
resource_group = "<RESOURCE_GROUP>"
workspace_name = "<AML_WORKSPACE_NAME>"
ml_client = MLClient(
    DefaultAzureCredential(), subscription_id, resource_group, workspace_name
)

spark_component = spark(
    name="Spark Component",
    inputs={
        "titanic_data": Input(type="uri_file", mode="direct"),
    },
    outputs={
        "wrangled_data": Output(type="uri_folder", mode="direct"),
    },
    # The source folder of the component
    code="./src",
    entry={"file": "titanic.py"},
    driver_cores=1,
    driver_memory="2g",
    executor_cores=2,
    executor_memory="2g",
    executor_instances=2,
    args="--titanic_data ${{inputs.titanic_data}} --wrangled_data ${{outputs.wrangled_data}}",
)


@dsl.pipeline(
    description="Sample Pipeline with Spark component",
)
def spark_pipeline(spark_input_data):
    spark_step = spark_component(titanic_data=spark_input_data)
    spark_step.inputs.titanic_data.mode = InputOutputModes.DIRECT
    spark_step.outputs.wrangled_data = Output(
        type="uri_folder",
        path="azureml://datastores/workspaceblobstore/paths/data/wrangled/",
    )
    spark_step.outputs.wrangled_data.mode = InputOutputModes.DIRECT
    spark_step.identity = ManagedIdentityConfiguration()
    spark_step.resources = {
        "instance_type": "Standard_E8S_V3",
        "runtime_version": "3.4.0",
    }

pipeline = spark_pipeline(
    spark_input_data=Input(
        type="uri_file",
        path="azureml://datastores/workspaceblobstore/paths/data/titanic.csv",
    )
)

pipeline_job = ml_client.jobs.create_or_update(
    pipeline,
    experiment_name="Titanic-Spark-Pipeline-SDK",
)

# Wait until the job completes
ml_client.jobs.stream(pipeline_job.name)

注意

若要使用附加的 Synapse Spark 集區，請在函式中azure.ai.ml.spark定義 compute 參數，而不是 resources 參數。以上述程式碼範例為例，請定義 spark_step.compute = "<ATTACHED_SPARK_POOL_NAME>"，而不是 spark_step.resources。

對 Spark 作業進行疑難排解

若要對 Spark 作業進行疑難排解，您可以在 Azure Machine Learning 工作室中存取為該作業產生的記錄。如何檢視 Spark 作業的記錄：

從 Azure Machine Learning 工作室 UI 的左側面板，瀏覽至 [作業]
選取 [所有作業] 索引標籤
選取作業的 [顯示名稱] 值
在 [作業詳細資料] 頁面上，選取 [輸出 + 記錄] 索引標籤
在檔案總管中，依序展開 [logs] 資料夾與 [azureml] 資料夾
存取 [驅動程式] 與 [程式庫管理員] 資料夾中的 Spark 作業記錄

注意

若要針對在筆記本工作階段中的互動式資料整頓期間所建立的 Spark 作業，進行疑難排解，請選取筆記本 UI 右上角的 [作業詳細資料]。互動式筆記本工作階段中的 Spark 作業建立時，會採用實驗名稱 notebook-runs。

共用方式為

在 Azure Machine Learning 中提交 Spark 作業

必要條件

使用 CLI 第 2 版連結使用者指派的受控識別

使用 `ARMClient` 連結使用者指派的受控識別

提交獨立 Spark 作業

Spark 作業規格中的 YAML 屬性

獨立 Spark 作業

使用 Python SDK 的獨立 Spark 作業

從 Azure Machine Learning 工作室 UI 提交獨立 Spark 作業 (預覽版)

管線作業中的 Spark 元件

對 Spark 作業進行疑難排解

下一步

意見反應

其他資源

共用方式為

在 Azure Machine Learning 中提交 Spark 作業

必要條件

使用 CLI 第 2 版連結使用者指派的受控識別

使用 ARMClient 連結使用者指派的受控識別

提交獨立 Spark 作業

Spark 作業規格中的 YAML 屬性

獨立 Spark 作業

管線作業中的 Spark 元件

對 Spark 作業進行疑難排解

下一步

意見反應

其他資源

使用 `ARMClient` 連結使用者指派的受控識別