RegressionJob 類別

參考

AutoML 回歸作業的組態。

初始化新的 AutoML 回歸工作。

繼承: azure.ai.ml.entities._job.automl.tabular.automl_tabular.AutoMLTabular

RegressionJob

建構函式

RegressionJob(*, primary_metric: str | None = None, **kwargs)

參數

primary_metric: str

必要

要用於優化的主要計量

kwargs: dict

必要

作業特定引數

方法

dump	以 YAML 格式將作業內容傾印到檔案中。
set_data	定義資料組態。
set_featurization	定義特徵工程組態。
set_limits	設定作業的限制。
set_training	設定定型相關設定的方法。

dump

以 YAML 格式將作業內容傾印到檔案中。

dump(dest: str | PathLike | IO, **kwargs) -> None

參數

dest: Union[<xref:PathLike>, str, IO[AnyStr]]

必要

要寫入 YAML 內容的本機路徑或檔案資料流程。如果 dest 是檔案路徑，則會建立新的檔案。如果 dest 是開啟的檔案，則會直接寫入檔案。

kwargs: dict

要傳遞至 YAML 序列化程式的其他引數。

例外狀況

FileExistsError

如果 dest 是檔案路徑且檔案已經存在，則引發。

IOError

如果 dest 是開啟的檔案，而且無法寫入檔案，則引發。

set_data

定義資料組態。

set_data(*, training_data: Input, target_column_name: str, weight_column_name: str | None = None, validation_data: Input | None = None, validation_data_size: float | None = None, n_cross_validations: str | int | None = None, cv_split_column_names: List[str] | None = None, test_data: Input | None = None, test_data_size: float | None = None) -> None

參數

training_data: Input

定型資料。

target_column_name: str

目標資料行的資料行名稱。

weight_column_name: Optional[str]

加權資料行名稱，預設值為 None

validation_data: Optional[Input]

驗證資料，預設值為 None

validation_data_size: Optional[float]

驗證資料大小，預設值為 None

n_cross_validations: Optional[Union[str, int]]

n_cross_validations，預設值為 None

cv_split_column_names: Optional[List[str]]

cv_split_column_names，預設值為 None

test_data: Optional[Input]

測試資料，預設值為 None

test_data_size: Optional[float]

測試資料大小，預設值為 None

例外狀況

FileExistsError

如果 dest 是檔案路徑且檔案已經存在，則引發。

IOError

如果 dest 是開啟的檔案，而且無法寫入檔案，則引發。

set_featurization

定義特徵工程組態。

set_featurization(*, blocked_transformers: List[BlockedTransformers | str] | None = None, column_name_and_types: Dict[str, str] | None = None, dataset_language: str | None = None, transformer_params: Dict[str, List[ColumnTransformer]] | None = None, mode: str | None = None, enable_dnn_featurization: bool | None = None) -> None

參數

blocked_transformers: Optional[List[Union[BlockedTransformers, str]]]

特徵化期間要封鎖的轉換器名稱清單，預設為 None

column_name_and_types: Optional[Dict[str, str]]

用來更新資料行用途的資料行名稱和功能類型的字典，預設值為 None

dataset_language: Optional[str]

資料集中所含語言 () 的三個字元 ISO 639-3 代碼。只有在您使用已啟用 GPU 的計算時，才支援英文以外的語言。如果資料集包含多種語言，則應使用language_code 'mul'。若要尋找不同語言的 ISO 639-3 代碼，請參閱 https://en.wikipedia.org/wiki/List_of_ISO_639-3_codes ，預設值為 None

transformer_params: Optional[Dict[str, List[ColumnTransformer]]]

轉換器和對應自訂參數的字典，預設為 None

mode: Optional[str]

「off」、「auto」預設為「auto」、預設值為 None

enable_dnn_featurization: Optional[bool]

是否要包含 DNN 型特徵工程方法，預設值為 None

例外狀況

FileExistsError

如果 dest 是檔案路徑且檔案已經存在，則引發。

IOError

如果 dest 是開啟的檔案，而且無法寫入檔案，則引發。

set_limits

設定作業的限制。

set_limits(*, enable_early_termination: bool | None = None, exit_score: float | None = None, max_concurrent_trials: int | None = None, max_cores_per_trial: int | None = None, max_nodes: int | None = None, max_trials: int | None = None, timeout_minutes: int | None = None, trial_timeout_minutes: int | None = None) -> None

參數

enable_early_termination: Optional[bool]

如果分數未在短期內改善，是否要啟用提早終止，預設值為 None。

早期停止邏輯：

前 20 個反復專案 (地標) 沒有提早停止。
早期停止視窗會在第 21 個反復專案上啟動，並尋找early_stopping_n_iters反復專案

(目前設定為 10) 。這表示可以執行停止的第一個反復專案是第 31 個。
AutoML 仍會排程 2 個反復專案 AFTER 早期停止，這可能會導致較高的分數。
如果計算的最佳分數絕對值在過去相同，就會觸發提早停止

early_stopping_n_iters反復專案，也就是說，如果early_stopping_n_iters反復專案的分數沒有改善。

exit_score: Optional[float]

實驗的目標分數。達到此分數之後，實驗就會終止。如果未指定 (沒有準則) ，則實驗會執行，直到主要計量沒有進一步的進度為止。如需結束準則的詳細資訊，請參閱這篇文章，預設值為 None

max_concurrent_trials: Optional[int]

這是平行執行的反復專案數目上限。預設值為 1。

AmlCompute 叢集支援每個節點執行一次反復專案。

對於在單一 AmlCompute 叢集上平行執行的多個 AutoML 實驗父系執行，所有實驗的值總 max_concurrent_trials 和應該小於或等於節點數目上限。否則，執行會排入佇列，直到節點可供使用為止。

DSVM 支援每個節點的多次反復專案。 max_concurrent_trials 應該

小於或等於 DSVM 上的核心數目。對於在單一 DSVM 上平行執行的多個實驗，所有實驗的值總和 max_concurrent_trials 應該小於或等於節點數目上限。

Databricks - max_concurrent_trials 應小於或等於數目

Databricks 上的背景工作節點。

max_concurrent_trials 不適用於本機執行。先前，此參數的名稱為 concurrent_iterations 。

max_cores_per_trial: Optional[int]

要用於指定定型反覆運算的執行緒數目上限。可接受的值：

大於 1 且小於或等於計算目標上的核心數目上限。
等於 -1，這表示在每個子執行每次反覆運算時使用所有可能的核心。
等於 1，預設值。

max_nodes: Optional[int]

[實驗性]用於分散式定型的節點數目上限。

針對預測，每個模型都會使用 max (2 來定型，int (max_nodes / max_concurrent_trials) ) 節點。
針對分類/回歸，每個模型都會使用max_nodes節點來定型。

注意- 此參數處於公開預覽狀態，未來可能會變更。

max_trials: Optional[int]

自動化 ML 實驗期間要測試的不同演算法和參數組合總數。如果未指定，預設值為 1000 次反覆運算。

timeout_minutes: Optional[int]

在實驗終止之前，所有反覆運算合在一起所花費的時間量上限 (以分鐘為單位)。如果未指定，則預設實驗逾時為 6 天。若要指定小於或等於 1 小時的逾時，請確定資料集的大小不大於 10,000,000 個 (資料列時間資料行) 或錯誤結果，預設值為 None

trial_timeout_minutes: Optional[int]

每個反復專案可以在終止之前執行的最大時間。如果未指定，則會使用 1 個月或 43200 分鐘的值，預設值為 None

例外狀況

FileExistsError

如果 dest 是檔案路徑且檔案已經存在，則引發。

IOError

如果 dest 是開啟的檔案，而且無法寫入檔案，則引發。

set_training

設定定型相關設定的方法。

set_training(*, enable_onnx_compatible_models: bool | None = None, enable_dnn_training: bool | None = None, enable_model_explainability: bool | None = None, enable_stack_ensemble: bool | None = None, enable_vote_ensemble: bool | None = None, stack_ensemble_settings: StackEnsembleSettings | None = None, ensemble_model_download_timeout: int | None = None, allowed_training_algorithms: List[str] | None = None, blocked_training_algorithms: List[str] | None = None, training_mode: str | TrainingMode | None = None) -> None

參數

enable_onnx_compatible_models: Optional[bool]

是否要啟用或停用強制使用 ONNX 相容模型。預設值是 False。如需 Open Neural Network Exchange (ONNX) 和 Azure Machine Learning 的詳細資訊，請參閱這篇文章。

enable_dnn_training: Optional[bool]

是否要在模型選取期間包含 DNN 型模型。不過，DNN NLP 工作的預設值為 True，所有其他 AutoML 工作則為 False。

enable_model_explainability: Optional[bool]

是否要在所有 AutoML 定型反復專案結束時啟用說明最佳 AutoML 模型。如需詳細資訊，請參閱可解譯性：自動化機器學習中的模型說明。，預設為 None

enable_stack_ensemble: Optional[bool]

是否要啟用/停用 StackEnsemble 反復專案。如果 設定enable_onnx_compatible_models 旗標，則會停用 StackEnsemble 反復專案。同樣地，對於 Timeseries 工作，StackEnsemble 反復專案預設會停用，以避免因調整中繼學習工具所使用的小型訓練集而造成過度學習的風險。如需 ensembles 的詳細資訊，請參閱 Ensemble 組態，預設值為 None

enable_vote_ensemble: Optional[bool]

是否要啟用/停用 VotingEnsemble 反復專案。如需 ensembles 的詳細資訊，請參閱 Ensemble 組態，預設值為 None

stack_ensemble_settings: Optional[StackEnsembleSettings]

StackEnsemble 反復專案的設定，預設為 None

ensemble_model_download_timeout: Optional[int]

在 VotingEnsemble 和 StackEnsemble 模型產生期間，會下載先前子回合中的多個配適模型。以高於 300 秒的值設定此參數，如果需要更多時間，則預設為 None

allowed_training_algorithms: Optional[List[str]]

要搜尋實驗的模型名稱清單。如果未指定，則會使用工作支援的所有模型減去或已被取代的 TensorFlow 模型中指定的任何 blocked_training_algorithms 模型，預設為 None

blocked_training_algorithms: Optional[List[str]]

實驗要忽略的演算法清單，預設為 [無]

training_mode: Optional[Union[str, TabularTrainingMode]]

[實驗性]要使用的定型模式。可能的值為：

distributed - 可針對支援的演算法啟用分散式定型。
non_distributed- 停用分散式定型。
auto- 目前與non_distributed相同。未來可能會變更。

注意：此參數處於公開預覽狀態，未來可能會變更。

例外狀況

FileExistsError

如果 dest 是檔案路徑且檔案已經存在，則引發。

IOError

如果 dest 是開啟的檔案，而且無法寫入檔案，則引發。

屬性

base_path

資源的基底路徑。

傳回

資源的基底路徑。

傳回類型

str

creation_context

資源的建立內容。

傳回

資源的建立中繼資料。

傳回類型

Optional[SystemData]

featurization

取得 AutoML 作業的表格式特徵化設定。

傳回

AutoML 作業的表格式特徵化設定

傳回類型

TabularFeaturizationSettings

id

資源識別碼。

傳回

資源的全域識別碼，Azure Resource Manager (ARM) 識別碼。

傳回類型

Optional[str]

inputs

limits

取得 AutoML 作業的表格式限制。

傳回

AutoML 作業的表格式限制

傳回類型

TabularLimitSettings

log_files

作業輸出檔案。

傳回

記錄名稱和 URL 的字典。

傳回類型

Optional[Dict[str, str]]

log_verbosity

取得 AutoML 作業的記錄詳細資訊。

傳回

AutoML 作業的記錄詳細資訊

傳回類型

<xref:LogVerbosity>

outputs

primary_metric

status

工作的狀態。

傳回的常見值包括「Running」、「Completed」和「Failed」。所有可能的值為：

NotStarted - 這是用戶端 Run 物件在雲端提交之前所在的暫時狀態。
啟動 - 執行已在雲端中開始處理。呼叫端此時有執行識別碼。
布建 - 針對指定的作業提交建立隨選計算。
準備 - 正在準備執行環境，且處於兩個階段之一：
- Docker 映射組建
- conda 環境設定
已排入佇列 - 作業會排入計算目標上的佇列。例如，在 BatchAI 中，作業處於佇列狀態

等候所有要求的節點準備就緒時。
執行 - 作業已開始在計算目標上執行。
完成 - 使用者程式碼執行已完成，且執行處於後續處理階段。
CancelRequested - 已要求取消作業。
已完成 - 執行已順利完成。這包括使用者程式碼執行和執行

後續處理階段。
失敗 - 執行失敗。執行上的 Error 屬性通常會提供原因的詳細資料。
已取消 - 遵循取消要求，並指出現在已成功取消執行。
NotResponding - 針對已啟用活動訊號的執行，最近不會傳送活動訊號。

傳回

作業的狀態。

傳回類型

Optional[str]

studio_url

Azure ML Studio 端點。

傳回

作業詳細資料頁面的 URL。

傳回類型

Optional[str]

task_type

取得工作類型。

傳回

要執行的工作類型。可能的值包括：「classification」、「regression」、「forecasting」。

傳回類型

str

test_data

取得測試資料。

傳回

測試資料輸入

傳回類型

Input

training

training_data

取得定型資料。

傳回

定型資料輸入

傳回類型

Input

type

作業的類型。

傳回

作業的類型。

傳回類型

Optional[str]

validation_data

取得驗證資料。

傳回

驗證資料輸入

傳回類型

Input

共用方式為

RegressionJob 類別

建構函式

參數

方法

dump

參數

例外狀況

set_data

參數

例外狀況

set_featurization

參數

例外狀況

set_limits

參數

例外狀況

set_training

參數

例外狀況

屬性

base_path

傳回

傳回類型

creation_context

傳回

傳回類型

featurization

傳回

傳回類型

id

傳回

傳回類型

inputs

limits

傳回

傳回類型

log_files

傳回

傳回類型

log_verbosity

傳回

傳回類型

outputs

primary_metric

status

傳回

傳回類型

studio_url

傳回

傳回類型

task_type

傳回

傳回類型

test_data

傳回

傳回類型

training

training_data

傳回

傳回類型

type

傳回

傳回類型

validation_data

傳回

傳回類型

其他資源