ClassificationJob クラス
AutoML 分類ジョブの構成。
新しい AutoML 分類タスクを初期化します。
- 継承
-
azure.ai.ml.entities._job.automl.tabular.automl_tabular.AutoMLTabularClassificationJob
コンストラクター
ClassificationJob(*, primary_metric: str | None = None, positive_label: str | None = None, **kwargs)
パラメーター
- featurization
- Optional[TabularFeaturizationSettings]
特徴量化の設定。 既定値は None です。
- limits
- Optional[TabularLimitSettings]
設定を制限します。 既定値は None です。
- training
- Optional[TrainingSettings]
トレーニング設定。 既定値は None です。
- featurization
- Optional[TabularFeaturizationSettings]
特徴量化の設定。 既定値は None です。
- limits
- Optional[TabularLimitSettings]
は設定を制限します。 既定値は None です。
- training
- Optional[TrainingSettings]
トレーニング設定。 既定値は None です。
メソッド
dump |
ジョブの内容を YAML 形式のファイルにダンプします。 |
set_data |
データ構成を定義します。 |
set_featurization |
特徴エンジニアリングの構成を定義します。 |
set_limits |
ジョブの制限を設定します。 |
set_training |
トレーニング関連の設定を構成するメソッド。 |
dump
ジョブの内容を YAML 形式のファイルにダンプします。
dump(dest: str | PathLike | IO, **kwargs) -> None
パラメーター
YAML コンテンツを書き込むローカル パスまたはファイル ストリーム。 dest がファイル パスの場合は、新しいファイルが作成されます。 dest が開いているファイルの場合、ファイルは に直接書き込まれます。
- kwargs
- dict
YAML シリアライザーに渡す追加の引数。
例外
dest がファイル パスであり、ファイルが既に存在する場合に発生します。
dest が開いているファイルで、ファイルが書き込み可能でない場合に発生します。
set_data
データ構成を定義します。
set_data(*, training_data: Input, target_column_name: str, weight_column_name: str | None = None, validation_data: Input | None = None, validation_data_size: float | None = None, n_cross_validations: str | int | None = None, cv_split_column_names: List[str] | None = None, test_data: Input | None = None, test_data_size: float | None = None) -> None
パラメーター
- training_data
- Input
トレーニング データ。
- target_column_name
- str
ターゲット列の列名。
例外
dest がファイル パスであり、ファイルが既に存在する場合に発生します。
dest が開いているファイルで、ファイルが書き込み可能でない場合に発生します。
set_featurization
特徴エンジニアリングの構成を定義します。
set_featurization(*, blocked_transformers: List[BlockedTransformers | str] | None = None, column_name_and_types: Dict[str, str] | None = None, dataset_language: str | None = None, transformer_params: Dict[str, List[ColumnTransformer]] | None = None, mode: str | None = None, enable_dnn_featurization: bool | None = None) -> None
パラメーター
- blocked_transformers
- Optional[List[Union[BlockedTransformers, str]]]
特徴量化中にブロックされるトランスフォーマー名の一覧。既定値は None です
データセットに含まれる言語の 3 文字の ISO 639-3 コード。 英語以外の言語は、GPU 対応コンピューティングを使用する場合にのみサポートされます。 データセットに複数の言語が含まれている場合は、language_code 'mul' を使用する必要があります。 さまざまな言語の ISO 639-3 コードを見つけるには、 を https://en.wikipedia.org/wiki/List_of_ISO_639-3_codes参照してください。既定値は None です
- transformer_params
- Optional[Dict[str, List[ColumnTransformer]]]
トランスフォーマーと対応するカスタマイズ パラメーターのディクショナリ。既定値は None です。
例外
dest がファイル パスであり、ファイルが既に存在する場合に発生します。
dest が開いているファイルで、ファイルが書き込み可能でない場合に発生します。
set_limits
ジョブの制限を設定します。
set_limits(*, enable_early_termination: bool | None = None, exit_score: float | None = None, max_concurrent_trials: int | None = None, max_cores_per_trial: int | None = None, max_nodes: int | None = None, max_trials: int | None = None, timeout_minutes: int | None = None, trial_timeout_minutes: int | None = None) -> None
パラメーター
スコアが短期間で改善しない場合に早期終了を有効にするかどうかは、既定値は None です。
早期停止ロジック:
最初の 20 回の反復 (ランドマーク) に早期停止はありません。
早期停止期間は 21 回目の反復で開始され、early_stopping_n_iters 回の反復を探します
(現在は 10 に設定されています)。 つまり、停止が発生しうる最初の反復は 31 回目です。
AutoML では、早期停止後も 2 つのアンサンブル イテレーションがスケジュールされるため、スコアが高くなる可能性があります。
計算される最高スコアの絶対値が過去の
early_stopping_n_iters 回の反復と同じ、つまり、early_stopping_n_iters 回の反復のスコアに改善がない場合、早期停止がトリガーされます。
実験のターゲット スコア。 実験は、このスコアに達すると終了します。 指定しない場合 (基準なし)、実験は、主要メトリックでそれ以上の進行がなくなるまで実行されます。 終了条件の詳細については、この 記事 を参照してください。既定値は None です。
これは、並列で実行される反復の最大数です。 既定値は 1 です。
- AmlCompute クラスターでは、ノードごとに 1 つのイテレーションが実行されます。
複数の AutoML 実験の親が単一の AmlCompute クラスターで並行して実行される場合、すべての実験の max_concurrent_trials
値の合計がノードの最大数以下である必要があります。 それ以外の場合は、実行は、ノードが使用可能になるまでキューに入れられます。
- DSVM は、ノードごとに複数の反復をサポートします。
max_concurrent_trials
は必要です
は DSVM のコア数以下である必要があります。 1 つの DSVM 上で複数の実験を並行して実行する場合、すべての実験の max_concurrent_trials
値の合計がノードの最大数以下である必要があります。
- Databricks -
max_concurrent_trials
の数以下にする必要があります
Databricks 上のワーカー ノード。
max_concurrent_trials
はローカル実行には適用されません。 以前は、このパラメーターの名前は concurrent_iterations
でした。
特定のトレーニング反復に使用するスレッドの最大数。 許容される値:
1 より大きく、コンピューティング先のコアの最大数以下。
-1 に等しい。これは、子の実行ごと、反復ごとに可能なすべてのコアを使用することを意味します。
1 に等しい。これは既定値です。
[試験段階]分散トレーニングに使用するノードの最大数。
予測では、各モデルは max(2, int(max_nodes/max_concurrent_trials)) ノードを使用してトレーニングされます。
分類/回帰の場合、各モデルはmax_nodesノードを使用してトレーニングされます。
注- このパラメーターはパブリック プレビュー段階であり、今後変更される可能性があります。
すべてのイテレーションを組み合わせて、実験が終了するまでにかかる分単位での最大時間。 指定されていない場合、既定の実験タイムアウトは 6 日です。 1 時間以下のタイムアウトを指定するには、データセットのサイズが 10,000,000 (行の時間列) を超えないか、エラーの結果 (既定値は None) であることを確認します
各反復で終了前に実行できる最大時間 (分)。 指定しない場合、1 か月または 43200 分の値が使用され、既定値は None です
例外
dest がファイル パスであり、ファイルが既に存在する場合に発生します。
dest が開いているファイルで、ファイルが書き込み可能でない場合に発生します。
set_training
トレーニング関連の設定を構成するメソッド。
set_training(*, enable_onnx_compatible_models: bool | None = None, enable_dnn_training: bool | None = None, enable_model_explainability: bool | None = None, enable_stack_ensemble: bool | None = None, enable_vote_ensemble: bool | None = None, stack_ensemble_settings: StackEnsembleSettings | None = None, ensemble_model_download_timeout: int | None = None, allowed_training_algorithms: List[str] | None = None, blocked_training_algorithms: List[str] | None = None, training_mode: str | TrainingMode | None = None) -> None
パラメーター
ONNX と互換性のあるモデルの強制を有効または無効にするかどうか。 既定値は False です。 Open Neural Network Exchange (ONNX) と Azure Machine Learning の詳細については、こちらの 記事を参照してください。
モデルの選択時に DNN ベースのモデルを含めるかどうか。 ただし、既定値は、DNN NLP タスクの場合は True、他のすべての AutoML タスクの場合は False です。
すべての AutoML トレーニング反復の最後に、最適な AutoML モデルを説明できるかどうか。 詳細については、「解釈可能性: 自動 ML でのモデル説明」を参照してください。 、既定値は None です
StackEnsemble の反復を有効/無効にするかどうか。 enable_onnx_compatible_models フラグを設定すると、StackEnsemble 反復は無効になります。 同様に、Timeseries タスクの場合、meta learner の調整に使用されるトレーニング セットが小さいことによるオーバーフィットのリスクを回避するために、StackEnsemble の反復は既定で無効になります。 アンサンブルの詳細については、「 アンサンブル構成 」を参照してください。既定値は None です。
VotingEnsemble の反復を有効/無効にするかどうか。 アンサンブルの詳細については、「 アンサンブル構成 」を参照してください。既定値は None です。
- stack_ensemble_settings
- Optional[StackEnsembleSettings]
StackEnsemble イテレーションの設定(既定値は None)
VotingEnsemble モデルと StackEnsemble モデルの生成中に、前の子実行から複数の適合モデルがダウンロードされます。 300 秒を超える値でこのパラメーターを構成します。時間が長く必要な場合、既定値は None です
実験を検索するモデル名のリスト。 指定しない場合、タスクでサポートされているすべてのモデルから、TensorFlow モデルまたは非推奨の TensorFlow モデルで blocked_training_algorithms
指定されたすべてのモデルを引いた値が使用され、既定値は None になります。
- training_mode
- Optional[Union[str, TabularTrainingMode]]
[試験段階]使用するトレーニング モード。 使用可能な値は次のとおりです。
distributed- では、サポートされているアルゴリズムの分散トレーニングが有効になります。
non_distributed- 分散トレーニングを無効にします。
auto- 現在、non_distributedと同じです。 今後、これは変更される可能性があります。
注: このパラメーターはパブリック プレビュー段階であり、今後変更される可能性があります。
例外
dest がファイル パスであり、ファイルが既に存在する場合に発生します。
dest が開いているファイルで、ファイルが書き込み可能でない場合に発生します。
属性
base_path
creation_context
featurization
id
inputs
limits
log_files
log_verbosity
AutoML ジョブのログの詳細度を取得します。
戻り値
AutoML ジョブのログの詳細度
の戻り値の型 :
outputs
primary_metric
status
ジョブの状態。
一般的には "Running"、"Completed"、"Failed" などの値が返されます。 使用可能なすべての値は次のとおりです。
NotStarted - これは、クラウドの送信前にクライアント側の Run オブジェクトが存在する一時的な状態です。
Starting - クラウドで Run が処理され始めています。 この時点で、呼び出し元に実行 ID があります。
プロビジョニング - 特定のジョブの送信に対してオンデマンド コンピューティングが作成されています。
準備中 - 実行環境は準備中であり、次の 2 つの段階のいずれかにあります。
Docker イメージのビルド
Conda 環境のセットアップ
Queued - ジョブはコンピューティング先でキューに入れられます。 たとえば、BatchAI では、ジョブはキューに入った状態です
要求されたノードの準備が整うのを待機しています。
実行中 - コンピューティング 先でジョブの実行が開始されました。
最終処理 - ユーザー コードの実行が完了し、実行は後処理段階にあります。
CancelRequested - ジョブに対してキャンセルが要求されました。
完了 - 実行が正常に完了しました。 これには、ユーザー コードの実行と実行の両方が含まれます
後処理のステージ。
Failed - 実行に失敗しました。 通常は実行の Error プロパティで、理由に関する詳細が提供されます。
Canceled - キャンセル要求に従い、実行が現在正常にキャンセルされたことを示します。
NotResponding - ハートビートが有効になっている実行の場合、最近ハートビートが送信されていません。
戻り値
ジョブの状態。
の戻り値の型 :
studio_url
task_type
test_data
training
AutoML 分類ジョブのトレーニング設定。
戻り値
AutoML 分類ジョブに使用されるトレーニング設定。
の戻り値の型 :
training_data
type
validation_data
Azure SDK for Python