ClassificationJob クラス

リファレンス

AutoML 分類ジョブの構成。

新しい AutoML 分類タスクを初期化します。

継承: azure.ai.ml.entities._job.automl.tabular.automl_tabular.AutoMLTabular

ClassificationJob

コンストラクター

ClassificationJob(*, primary_metric: str | None = None, positive_label: str | None = None, **kwargs)

パラメーター

primary_metric: Optional[str]

最適化に使用する主なメトリック。既定値は None です

positive_label: Optional[str]

バイナリメトリック計算の正のラベル。既定値は None です

featurization: Optional[TabularFeaturizationSettings]

特徴量化の設定。既定値は None です。

limits: Optional[TabularLimitSettings]

設定を制限します。既定値は None です。

training: Optional[TrainingSettings]

トレーニング設定。既定値は None です。

primary_metric: Optional[str]

最適化に使用する主なメトリック。既定値は None です

positive_label: Optional[str]

バイナリメトリック計算の正のラベル。既定値は None です

featurization: Optional[TabularFeaturizationSettings]

特徴量化の設定。既定値は None です。

limits: Optional[TabularLimitSettings]

は設定を制限します。既定値は None です。

training: Optional[TrainingSettings]

トレーニング設定。既定値は None です。

メソッド

dump	ジョブの内容を YAML 形式のファイルにダンプします。
set_data	データ構成を定義します。
set_featurization	特徴エンジニアリングの構成を定義します。
set_limits	ジョブの制限を設定します。
set_training	トレーニング関連の設定を構成するメソッド。

dump

ジョブの内容を YAML 形式のファイルにダンプします。

dump(dest: str | PathLike | IO, **kwargs) -> None

パラメーター

dest: Union[<xref:PathLike>, str, IO[AnyStr]]

必須

YAML コンテンツを書き込むローカルパスまたはファイルストリーム。 dest がファイルパスの場合は、新しいファイルが作成されます。 dest が開いているファイルの場合、ファイルはに直接書き込まれます。

kwargs: dict

YAML シリアライザーに渡す追加の引数。

例外

FileExistsError

dest がファイルパスであり、ファイルが既に存在する場合に発生します。

IOError

dest が開いているファイルで、ファイルが書き込み可能でない場合に発生します。

set_data

データ構成を定義します。

set_data(*, training_data: Input, target_column_name: str, weight_column_name: str | None = None, validation_data: Input | None = None, validation_data_size: float | None = None, n_cross_validations: str | int | None = None, cv_split_column_names: List[str] | None = None, test_data: Input | None = None, test_data_size: float | None = None) -> None

パラメーター

training_data: Input

トレーニングデータ。

target_column_name: str

ターゲット列の列名。

weight_column_name: Optional[str]

重みの列名。既定値は None です

validation_data: Optional[Input]

検証データ、既定値は [なし]

validation_data_size: Optional[float]

検証データサイズ(既定値は None)

n_cross_validations: Optional[Union[str, int]]

n_cross_validations、既定値は None です

cv_split_column_names: Optional[List[str]]

cv_split_column_names、既定値は None です

test_data: Optional[Input]

テストデータ、既定値は [なし]

test_data_size: Optional[float]

テストデータサイズ(既定値は None)

例外

FileExistsError

dest がファイルパスであり、ファイルが既に存在する場合に発生します。

IOError

dest が開いているファイルで、ファイルが書き込み可能でない場合に発生します。

set_featurization

特徴エンジニアリングの構成を定義します。

set_featurization(*, blocked_transformers: List[BlockedTransformers | str] | None = None, column_name_and_types: Dict[str, str] | None = None, dataset_language: str | None = None, transformer_params: Dict[str, List[ColumnTransformer]] | None = None, mode: str | None = None, enable_dnn_featurization: bool | None = None) -> None

パラメーター

blocked_transformers: Optional[List[Union[BlockedTransformers, str]]]

特徴量化中にブロックされるトランスフォーマー名の一覧。既定値は None です

column_name_and_types: Optional[Dict[str, str]]

列の目的を更新するために使用される列名と機能の種類のディクショナリは、既定値は None です

dataset_language: Optional[str]

データセットに含まれる言語の 3 文字の ISO 639-3 コード。英語以外の言語は、GPU 対応コンピューティングを使用する場合にのみサポートされます。データセットに複数の言語が含まれている場合は、language_code 'mul' を使用する必要があります。さまざまな言語の ISO 639-3 コードを見つけるには、を https://en.wikipedia.org/wiki/List_of_ISO_639-3_codes参照してください。既定値は None です

transformer_params: Optional[Dict[str, List[ColumnTransformer]]]

トランスフォーマーと対応するカスタマイズパラメーターのディクショナリ。既定値は None です。

mode: Optional[str]

"off"、"auto"、既定値は "auto"、既定値は None

enable_dnn_featurization: Optional[bool]

DNN ベースの特徴エンジニアリング方法を含めるかどうか(既定値は None)

例外

FileExistsError

dest がファイルパスであり、ファイルが既に存在する場合に発生します。

IOError

dest が開いているファイルで、ファイルが書き込み可能でない場合に発生します。

set_limits

ジョブの制限を設定します。

set_limits(*, enable_early_termination: bool | None = None, exit_score: float | None = None, max_concurrent_trials: int | None = None, max_cores_per_trial: int | None = None, max_nodes: int | None = None, max_trials: int | None = None, timeout_minutes: int | None = None, trial_timeout_minutes: int | None = None) -> None

パラメーター

enable_early_termination: Optional[bool]

スコアが短期間で改善しない場合に早期終了を有効にするかどうかは、既定値は None です。

早期停止ロジック:

最初の 20 回の反復 (ランドマーク) に早期停止はありません。
早期停止期間は 21 回目の反復で開始され、early_stopping_n_iters 回の反復を探します

(現在は 10 に設定されています)。つまり、停止が発生しうる最初の反復は 31 回目です。
AutoML では、早期停止後も 2 つのアンサンブルイテレーションがスケジュールされるため、スコアが高くなる可能性があります。
計算される最高スコアの絶対値が過去の

early_stopping_n_iters 回の反復と同じ、つまり、early_stopping_n_iters 回の反復のスコアに改善がない場合、早期停止がトリガーされます。

exit_score: Optional[float]

実験のターゲットスコア。実験は、このスコアに達すると終了します。指定しない場合 (基準なし)、実験は、主要メトリックでそれ以上の進行がなくなるまで実行されます。終了条件の詳細については、この記事を参照してください。既定値は None です。

max_concurrent_trials: Optional[int]

これは、並列で実行される反復の最大数です。既定値は 1 です。

AmlCompute クラスターでは、ノードごとに 1 つのイテレーションが実行されます。

複数の AutoML 実験の親が単一の AmlCompute クラスターで並行して実行される場合、すべての実験の max_concurrent_trials 値の合計がノードの最大数以下である必要があります。それ以外の場合は、実行は、ノードが使用可能になるまでキューに入れられます。

DSVM は、ノードごとに複数の反復をサポートします。 max_concurrent_trials は必要です

は DSVM のコア数以下である必要があります。 1 つの DSVM 上で複数の実験を並行して実行する場合、すべての実験の max_concurrent_trials 値の合計がノードの最大数以下である必要があります。

Databricks - max_concurrent_trials の数以下にする必要があります

Databricks 上のワーカーノード。

max_concurrent_trials はローカル実行には適用されません。以前は、このパラメーターの名前は concurrent_iterations でした。

max_cores_per_trial: Optional[int]

特定のトレーニング反復に使用するスレッドの最大数。許容される値:

1 より大きく、コンピューティング先のコアの最大数以下。
-1 に等しい。これは、子の実行ごと、反復ごとに可能なすべてのコアを使用することを意味します。
1 に等しい。これは既定値です。

max_nodes: Optional[int]

[試験段階]分散トレーニングに使用するノードの最大数。

予測では、各モデルは max(2, int(max_nodes/max_concurrent_trials)) ノードを使用してトレーニングされます。
分類/回帰の場合、各モデルはmax_nodesノードを使用してトレーニングされます。

注- このパラメーターはパブリックプレビュー段階であり、今後変更される可能性があります。

max_trials: Optional[int]

自動 ML 実験中にテストする異なるアルゴリズムとパラメーターの組み合わせの合計数。指定しない場合、既定値は 1000 反復です。

timeout_minutes: Optional[int]

すべてのイテレーションを組み合わせて、実験が終了するまでにかかる分単位での最大時間。指定されていない場合、既定の実験タイムアウトは 6 日です。 1 時間以下のタイムアウトを指定するには、データセットのサイズが 10,000,000 (行の時間列) を超えないか、エラーの結果 (既定値は None) であることを確認します

trial_timeout_minutes: Optional[int]

各反復で終了前に実行できる最大時間 (分)。指定しない場合、1 か月または 43200 分の値が使用され、既定値は None です

例外

FileExistsError

dest がファイルパスであり、ファイルが既に存在する場合に発生します。

IOError

dest が開いているファイルで、ファイルが書き込み可能でない場合に発生します。

set_training

トレーニング関連の設定を構成するメソッド。

set_training(*, enable_onnx_compatible_models: bool | None = None, enable_dnn_training: bool | None = None, enable_model_explainability: bool | None = None, enable_stack_ensemble: bool | None = None, enable_vote_ensemble: bool | None = None, stack_ensemble_settings: StackEnsembleSettings | None = None, ensemble_model_download_timeout: int | None = None, allowed_training_algorithms: List[str] | None = None, blocked_training_algorithms: List[str] | None = None, training_mode: str | TrainingMode | None = None) -> None

パラメーター

enable_onnx_compatible_models: Optional[bool]

ONNX と互換性のあるモデルの強制を有効または無効にするかどうか。既定値は False です。 Open Neural Network Exchange (ONNX) と Azure Machine Learning の詳細については、こちらの記事を参照してください。

enable_dnn_training: Optional[bool]

モデルの選択時に DNN ベースのモデルを含めるかどうか。ただし、既定値は、DNN NLP タスクの場合は True、他のすべての AutoML タスクの場合は False です。

enable_model_explainability: Optional[bool]

すべての AutoML トレーニング反復の最後に、最適な AutoML モデルを説明できるかどうか。詳細については、「解釈可能性: 自動 ML でのモデル説明」を参照してください。、既定値は None です

enable_stack_ensemble: Optional[bool]

StackEnsemble の反復を有効/無効にするかどうか。 enable_onnx_compatible_models フラグを設定すると、StackEnsemble 反復は無効になります。同様に、Timeseries タスクの場合、meta learner の調整に使用されるトレーニングセットが小さいことによるオーバーフィットのリスクを回避するために、StackEnsemble の反復は既定で無効になります。アンサンブルの詳細については、「アンサンブル構成」を参照してください。既定値は None です。

enable_vote_ensemble: Optional[bool]

VotingEnsemble の反復を有効/無効にするかどうか。アンサンブルの詳細については、「アンサンブル構成」を参照してください。既定値は None です。

stack_ensemble_settings: Optional[StackEnsembleSettings]

StackEnsemble イテレーションの設定(既定値は None)

ensemble_model_download_timeout: Optional[int]

VotingEnsemble モデルと StackEnsemble モデルの生成中に、前の子実行から複数の適合モデルがダウンロードされます。 300 秒を超える値でこのパラメーターを構成します。時間が長く必要な場合、既定値は None です

allowed_training_algorithms: Optional[List[str]]

実験を検索するモデル名のリスト。指定しない場合、タスクでサポートされているすべてのモデルから、TensorFlow モデルまたは非推奨の TensorFlow モデルで blocked_training_algorithms 指定されたすべてのモデルを引いた値が使用され、既定値は None になります。

blocked_training_algorithms: Optional[List[str]]

実験に対して無視するアルゴリズムの一覧(既定値は None)

training_mode: Optional[Union[str, TabularTrainingMode]]

[試験段階]使用するトレーニングモード。使用可能な値は次のとおりです。

distributed- では、サポートされているアルゴリズムの分散トレーニングが有効になります。
non_distributed- 分散トレーニングを無効にします。
auto- 現在、non_distributedと同じです。今後、これは変更される可能性があります。

注: このパラメーターはパブリックプレビュー段階であり、今後変更される可能性があります。

例外

FileExistsError

dest がファイルパスであり、ファイルが既に存在する場合に発生します。

IOError

dest が開いているファイルで、ファイルが書き込み可能でない場合に発生します。

Optional[str]

<xref:LogVerbosity>

outputs

primary_metric

最適化に使用する主なメトリック。

戻り値

最適化に使用する主なメトリック。

の戻り値の型 :

Union[str, ClassificationPrimaryMetrics]

status

ジョブの状態。

一般的には "Running"、"Completed"、"Failed" などの値が返されます。使用可能なすべての値は次のとおりです。

NotStarted - これは、クラウドの送信前にクライアント側の Run オブジェクトが存在する一時的な状態です。
Starting - クラウドで Run が処理され始めています。この時点で、呼び出し元に実行 ID があります。
プロビジョニング - 特定のジョブの送信に対してオンデマンドコンピューティングが作成されています。
準備中 - 実行環境は準備中であり、次の 2 つの段階のいずれかにあります。
- Docker イメージのビルド
- Conda 環境のセットアップ
Queued - ジョブはコンピューティング先でキューに入れられます。たとえば、BatchAI では、ジョブはキューに入った状態です

要求されたノードの準備が整うのを待機しています。
実行中 - コンピューティング先でジョブの実行が開始されました。
最終処理 - ユーザーコードの実行が完了し、実行は後処理段階にあります。
CancelRequested - ジョブに対してキャンセルが要求されました。
完了 - 実行が正常に完了しました。これには、ユーザーコードの実行と実行の両方が含まれます

後処理のステージ。
Failed - 実行に失敗しました。通常は実行の Error プロパティで、理由に関する詳細が提供されます。
Canceled - キャンセル要求に従い、実行が現在正常にキャンセルされたことを示します。
NotResponding - ハートビートが有効になっている実行の場合、最近ハートビートが送信されていません。

コンストラクター

パラメーター

メソッド

dump

パラメーター

例外

set_data

パラメーター

例外

set_featurization

パラメーター

例外

set_limits

パラメーター

例外

set_training

パラメーター

例外

属性

base_path

戻り値

の戻り値の型 :

creation_context

戻り値

の戻り値の型 :

featurization

戻り値

の戻り値の型 :

id

戻り値

の戻り値の型 :

inputs

limits

戻り値

の戻り値の型 :

log_files

戻り値

の戻り値の型 :

log_verbosity

戻り値

の戻り値の型 :

outputs

primary_metric

戻り値

の戻り値の型 :

status

戻り値

の戻り値の型 :

studio_url

戻り値

の戻り値の型 :

task_type

戻り値

の戻り値の型 :

test_data

戻り値

の戻り値の型 :

training

戻り値

の戻り値の型 :

training_data

戻り値

の戻り値の型 :

type

戻り値

の戻り値の型 :

validation_data

戻り値

の戻り値の型 :

その他のリソース