AdlaStep 類別
建立 Azure ML 管線步驟,以使用 Azure Data Lake Analytics執行 U-SQL 腳本。
如需使用此 AdlaStep 的範例,請參閱筆記本 https://aka.ms/pl-adla 。
建立 Azure ML 管線步驟,以使用 Azure Data Lake Analytics執行 U-SQL 腳本。
- 繼承
-
azureml.pipeline.core._adla_step_base._AdlaStepBaseAdlaStep
建構函式
AdlaStep(script_name, name=None, inputs=None, outputs=None, params=None, degree_of_parallelism=None, priority=None, runtime_version=None, compute_target=None, source_directory=None, allow_reuse=True, version=None, hash_paths=None)
參數
名稱 | Description |
---|---|
script_name
必要
|
[必要]相對於 的 U-SQL 腳本 |
name
|
步驟的名稱。 如果未指定, 預設值: None
|
inputs
|
輸入埠系結的清單。 預設值: None
|
outputs
|
輸出埠系結的清單。 預設值: None
|
params
|
名稱/值組的字典。 預設值: None
|
degree_of_parallelism
|
要用於此作業的平行處理原則程度。 這必須大於 0。 如果設定為小於 0,則預設為 1。 預設值: None
|
priority
|
要用於目前作業的優先順序值。 較低的數位優先順序較高。 根據預設,作業的優先順序為 1000。 您指定的值必須大於 0。 預設值: None
|
runtime_version
|
Data Lake Analytics 引擎的執行階段版本。 預設值: None
|
compute_target
|
[必要]要用於此作業的 ADLA 計算。 預設值: None
|
source_directory
|
包含腳本、元件等的資料夾。 預設值: None
|
allow_reuse
|
指出當使用相同的設定重新執行時,步驟是否應該重複使用先前的結果。 預設會啟用重複使用。 如果步驟內容 (腳本/相依性) ,以及輸入和參數保持不變,則會重複使用此步驟上一次執行的輸出。 重複使用步驟時,不會提交要計算的作業,則會立即讓任何後續步驟使用上一次執行的結果。 如果您使用 Azure Machine Learning 資料集做為輸入,則重複使用取決於資料集的定義是否已變更,而非基礎資料是否已變更。 預設值: True
|
version
|
選擇性版本標籤,表示步驟的功能變更。 預設值: None
|
hash_paths
|
已淘汰:不再需要。 檢查步驟內容的變更時,雜湊的路徑清單。 如果沒有偵測到任何變更,管線將會重複使用先前執行的步驟內容。 根據預設,的內容 預設值: None
|
script_name
必要
|
[必要]相對於 的 U-SQL 腳本 |
name
必要
|
步驟的名稱。 如果未指定, |
inputs
必要
|
輸入埠系結的清單 |
outputs
必要
|
list[Union[PipelineData, <xref:azureml.pipeline.core.pipeline_output_dataset.PipelineAbstractOutputDataset>, OutputPortBinding]]
輸出埠系結的清單。 |
params
必要
|
名稱/值組的字典。 |
degree_of_parallelism
必要
|
要用於此作業的平行處理原則程度。 這必須大於 0。 如果設定為小於 0,則預設為 1。 |
priority
必要
|
要用於目前作業的優先順序值。 較低的數位優先順序較高。 根據預設,作業的優先順序為 1000。 您指定的值必須大於 0。 |
runtime_version
必要
|
Data Lake Analytics 引擎的執行階段版本。 |
compute_target
必要
|
[必要]要用於此作業的 ADLA 計算。 |
source_directory
必要
|
包含腳本、元件等的資料夾。 |
allow_reuse
必要
|
指出當使用相同的設定重新執行時,步驟是否應該重複使用先前的結果。 預設會啟用重複使用。 如果步驟內容 (腳本/相依性) ,以及輸入和參數保持不變,則會重複使用此步驟上一次執行的輸出。 重複使用步驟時,不會提交要計算的作業,則會立即讓任何後續步驟使用上一次執行的結果。 如果您使用 Azure Machine Learning 資料集做為輸入,則重複使用取決於資料集的定義是否已變更,而非基礎資料是否已變更。 |
version
必要
|
選擇性版本標籤,表示步驟的功能變更。 |
hash_paths
必要
|
已淘汰:不再需要。 檢查步驟內容的變更時,雜湊的路徑清單。 如果沒有偵測到任何變更,管線將會重複使用先前執行的步驟內容。 根據預設,的內容 |
備註
您可以在腳本中使用 @@name@@ 語法來參考輸入、輸出和參數。
如果 name 是輸入或輸出埠系結的名稱,腳本中任何出現的 @@name@@ ,就會取代為對應埠系結的實際資料路徑。
如果 name 符合 params 聽寫中的任何索引鍵,則任何出現的 @@name@@ 都會取代為聽寫中的對應值。
AdlaStep 僅適用于儲存在Data Lake Analytics帳戶之預設Data Lake Storage中的資料。 如果資料位於非預設儲存體中,請使用 DataTransferStep 將資料複製到預設儲存體。 您可以在Azure 入口網站中開啟您的Data Lake Analytics帳戶,然後流覽至左窗格中 [設定] 底下的 [資料來源] 專案,以尋找預設儲存體。
下列範例示範如何在 Azure Machine Learning 管線中使用 AdlaStep。
adla_step = AdlaStep(
name='extract_employee_names',
script_name='sample_script.usql',
source_directory=sample_folder,
inputs=[sample_input],
outputs=[sample_output],
compute_target=adla_compute)
方法
create_node |
從 AdlaStep 步驟建立節點,並將它新增至指定的圖表。 這個方法不適合直接使用。 使用此步驟具現化管線時,Azure ML 會自動傳遞透過此方法所需的參數,以便將步驟新增至代表工作流程的管線圖形。 |
create_node
從 AdlaStep 步驟建立節點,並將它新增至指定的圖表。
這個方法不適合直接使用。 使用此步驟具現化管線時,Azure ML 會自動傳遞透過此方法所需的參數,以便將步驟新增至代表工作流程的管線圖形。
create_node(graph, default_datastore, context)
參數
名稱 | Description |
---|---|
graph
必要
|
繪圖物件。 |
default_datastore
必要
|
預設資料存放區。 |
context
必要
|
<xref:azureml.pipeline.core._GraphContext>
圖形內容。 |
傳回
類型 | Description |
---|---|
節點物件。 |