Condividi tramite


ClassificationJob Classe

Configurazione per il processo di classificazione AutoML.

Inizializzare una nuova attività di classificazione AutoML.

Ereditarietà
azure.ai.ml.entities._job.automl.tabular.automl_tabular.AutoMLTabular
ClassificationJob

Costruttore

ClassificationJob(*, primary_metric: str | None = None, positive_label: str | None = None, **kwargs)

Parametri

primary_metric
Optional[str]

Metrica primaria da usare per l'ottimizzazione, impostazione predefinita none

positive_label
Optional[str]

Etichetta positiva per il calcolo delle metriche binarie, impostazione predefinita none

featurization
Optional[TabularFeaturizationSettings]

Impostazioni di funzionalità. Il valore predefinito è Nessuna.

limits
Optional[TabularLimitSettings]

Limiti delle impostazioni. Il valore predefinito è Nessuna.

training
Optional[TrainingSettings]

Impostazioni di training. Il valore predefinito è Nessuna.

primary_metric
Optional[str]

Metrica primaria da usare per l'ottimizzazione, impostazione predefinita none

positive_label
Optional[str]

Etichetta positiva per il calcolo delle metriche binarie, impostazione predefinita none

featurization
Optional[TabularFeaturizationSettings]

impostazioni di funzionalità. Il valore predefinito è Nessuna.

limits
Optional[TabularLimitSettings]

limiti delle impostazioni. Il valore predefinito è Nessuna.

training
Optional[TrainingSettings]

impostazioni di training. Il valore predefinito è Nessuna.

Metodi

dump

Esegue il dump del contenuto del processo in un file in formato YAML.

set_data

Definire la configurazione dei dati.

set_featurization

Definire la configurazione della progettazione delle funzionalità.

set_limits

Impostare i limiti per il processo.

set_training

Metodo per configurare le impostazioni correlate al training.

dump

Esegue il dump del contenuto del processo in un file in formato YAML.

dump(dest: str | PathLike | IO, **kwargs) -> None

Parametri

dest
Union[<xref:PathLike>, str, IO[AnyStr]]
Necessario

Percorso locale o flusso di file in cui scrivere il contenuto YAML. Se il massimo è un percorso di file, verrà creato un nuovo file. Se il massimo è un file aperto, il file verrà scritto direttamente.

kwargs
dict

Argomenti aggiuntivi da passare al serializzatore YAML.

Eccezioni

Generato se il numero massimo è un percorso di file e il file esiste già.

Generato se il massimo è un file aperto e il file non è scrivibile.

set_data

Definire la configurazione dei dati.

set_data(*, training_data: Input, target_column_name: str, weight_column_name: str | None = None, validation_data: Input | None = None, validation_data_size: float | None = None, n_cross_validations: str | int | None = None, cv_split_column_names: List[str] | None = None, test_data: Input | None = None, test_data_size: float | None = None) -> None

Parametri

training_data
Input

Dati di training.

target_column_name
str

Nome colonna della colonna di destinazione.

weight_column_name
Optional[str]

Nome colonna peso, impostazione predefinita none

validation_data
Optional[Input]

Dati di convalida, impostazione predefinita none

validation_data_size
Optional[float]

Dimensioni dei dati di convalida, impostazione predefinita none

n_cross_validations
Optional[Union[str, int]]

n_cross_validations, impostazione predefinita none

cv_split_column_names
Optional[List[str]]

cv_split_column_names, impostazione predefinita none

test_data
Optional[Input]

Dati di test, impostazione predefinita none

test_data_size
Optional[float]

Dimensioni dei dati di test, impostazione predefinita none

Eccezioni

Generato se il numero massimo è un percorso di file e il file esiste già.

Generato se il massimo è un file aperto e il file non è scrivibile.

set_featurization

Definire la configurazione della progettazione delle funzionalità.

set_featurization(*, blocked_transformers: List[BlockedTransformers | str] | None = None, column_name_and_types: Dict[str, str] | None = None, dataset_language: str | None = None, transformer_params: Dict[str, List[ColumnTransformer]] | None = None, mode: str | None = None, enable_dnn_featurization: bool | None = None) -> None

Parametri

blocked_transformers
Optional[List[Union[BlockedTransformers, str]]]

Elenco di nomi di trasformatori da bloccare durante la funzionalità, impostazione predefinita su Nessuno

column_name_and_types
Optional[Dict[str, str]]

Dizionario dei nomi delle colonne e dei tipi di funzionalità usati per aggiornare lo scopo della colonna , impostazione predefinita su Nessuno

dataset_language
Optional[str]

Codice ISO 639-3 di tre caratteri per i linguaggi contenuti nel set di dati. Le lingue diverse dall'inglese sono supportate solo se si usa il calcolo abilitato per la GPU. L'language_code 'mul' deve essere usato se il set di dati contiene più lingue. Per trovare codici ISO 639-3 per lingue diverse, fare riferimento a https://en.wikipedia.org/wiki/List_of_ISO_639-3_codes, per impostazione predefinita none

transformer_params
Optional[Dict[str, List[ColumnTransformer]]]

Dizionario di trasformatori e parametri di personalizzazione corrispondenti, il valore predefinito è Nessuno

mode
Optional[str]

"off", "auto", il valore predefinito è "auto", il valore predefinito è Nessuno

enable_dnn_featurization
Optional[bool]

Indica se includere metodi di progettazione delle funzionalità basati su DNN, per impostazione predefinita None

Eccezioni

Generato se il numero massimo è un percorso di file e il file esiste già.

Generato se il massimo è un file aperto e il file non è scrivibile.

set_limits

Impostare i limiti per il processo.

set_limits(*, enable_early_termination: bool | None = None, exit_score: float | None = None, max_concurrent_trials: int | None = None, max_cores_per_trial: int | None = None, max_nodes: int | None = None, max_trials: int | None = None, timeout_minutes: int | None = None, trial_timeout_minutes: int | None = None) -> None

Parametri

enable_early_termination
Optional[bool]

Indica se abilitare la terminazione anticipata se il punteggio non migliora a breve termine, il valore predefinito è Nessuno.

Logica di arresto anticipato:

  • Nessuna sosta anticipata per le prime 20 iterazioni (punti di riferimento).

  • La finestra di arresto anticipato inizia la 21a iterazione e cerca early_stopping_n_iters iterazioni

    (attualmente impostato su 10). Ciò significa che la prima iterazione in cui può verificarsi l'arresto è la 31.

  • AutoML pianifica ancora 2 iterazioni di ensemble DOPO l'arresto anticipato, il che potrebbe comportare punteggi più elevati.

  • L'arresto anticipato viene attivato se il valore assoluto del punteggio migliore calcolato è lo stesso per il passato

    early_stopping_n_iters iterazioni, vale a dire se non esiste alcun miglioramento del punteggio per le iterazioni early_stopping_n_iters.

exit_score
Optional[float]

Punteggio di destinazione per l'esperimento. L'esperimento termina dopo il raggiungimento di questo punteggio. Se non viene specificato (nessun criterio), l'esperimento viene eseguito fino a quando non viene eseguito alcun ulteriore progresso sulla metrica primaria. Per altre informazioni sui criteri di uscita, vedere questo articolo , per impostazione predefinita None

max_concurrent_trials
Optional[int]

Si tratta del numero massimo di iterazioni che verrebbero eseguite in parallelo. Il valore predefinito è 1.

  • I cluster AmlCompute supportano un'iterazione in esecuzione per ogni nodo.

Per più esecuzioni padre dell'esperimento AutoML eseguite in parallelo in un singolo cluster AmlCompute, la somma dei max_concurrent_trials valori per tutti gli esperimenti deve essere minore o uguale al numero massimo di nodi. In caso contrario, le esecuzioni verranno accodate finché i nodi non saranno disponibili.

  • DSVM supporta più iterazioni per nodo. max_concurrent_trials Dovrebbe

essere minore o uguale al numero di core nella DSVM. Per più esperimenti eseguiti in parallelo in una singola DSVM, la somma dei max_concurrent_trials valori per tutti gli esperimenti deve essere minore o uguale al numero massimo di nodi.

  • Databricks: max_concurrent_trials deve essere minore o uguale al numero di

nodi di lavoro in Databricks.

max_concurrent_trials non si applica alle esecuzioni locali. In precedenza, questo parametro era denominato concurrent_iterations.

max_cores_per_trial
Optional[int]

Numero massimo di thread da usare per una determinata iterazione di training. Valori accettabili:

  • Maggiore di 1 e minore o uguale al numero massimo di core nella destinazione di calcolo.

  • Uguale a -1, ovvero usare tutti i core possibili per ogni iterazione per ogni esecuzione figlio.

  • Uguale a 1, valore predefinito.

max_nodes
Optional[int]

[Sperimentale] Numero massimo di nodi da usare per il training distribuito.

  • Per la previsione, ogni modello viene sottoposto a training usando nodi max(2, int(max_nodes/max_concurrent_trials)).

  • Per la classificazione/regressione, ogni modello viene sottoposto a training usando i nodi max_nodes.

Nota: questo parametro è disponibile in anteprima pubblica e potrebbe cambiare in futuro.

max_trials
Optional[int]

Numero totale di combinazioni di algoritmi e parametri diversi da testare durante un esperimento di Machine Learning automatizzato. Se non specificato, il valore predefinito è 1000 iterazioni.

timeout_minutes
Optional[int]

Quantità massima di tempo, in minuti, che tutte le iterazioni combinate possono impiegare prima che l'esperimento venga terminato. Se non specificato, il timeout predefinito dell'esperimento è di 6 giorni. Per specificare un timeout minore o uguale a 1 ora, assicurarsi che le dimensioni del set di dati non siano maggiori di 10.000.000 (colonne di righe) o di un errore, il valore predefinito è Nessuno

trial_timeout_minutes
Optional[int]

Tempo massimo in minuti per cui ogni iterazione può essere eseguita prima che venga terminata. Se non specificato, viene utilizzato un valore pari a 1 mese o 43200 minuti, il valore predefinito è Nessuno

Eccezioni

Generato se il numero massimo è un percorso di file e il file esiste già.

Generato se il massimo è un file aperto e il file non è scrivibile.

set_training

Metodo per configurare le impostazioni correlate al training.

set_training(*, enable_onnx_compatible_models: bool | None = None, enable_dnn_training: bool | None = None, enable_model_explainability: bool | None = None, enable_stack_ensemble: bool | None = None, enable_vote_ensemble: bool | None = None, stack_ensemble_settings: StackEnsembleSettings | None = None, ensemble_model_download_timeout: int | None = None, allowed_training_algorithms: List[str] | None = None, blocked_training_algorithms: List[str] | None = None, training_mode: str | TrainingMode | None = None) -> None

Parametri

enable_onnx_compatible_models
Optional[bool]

Indica se abilitare o disabilitare l'applicazione dei modelli compatibili con ONNX. Il valore predefinito è False. Per altre informazioni su Open Neural Network Exchange (ONNX) e Azure Machine Learning, vedere questo articolo.

enable_dnn_training
Optional[bool]

Indica se includere modelli basati su DNN durante la selezione del modello. Il valore predefinito, tuttavia, è True per le attività NLP della rete neurale di rete e false per tutte le altre attività AutoML.

enable_model_explainability
Optional[bool]

Indica se abilitare la spiegazione del modello AutoML migliore alla fine di tutte le iterazioni di training di AutoML. Per altre informazioni, vedere Interpretabilità: spiegazioni dei modelli in Machine Learning automatizzato. , il valore predefinito è Nessuno

enable_stack_ensemble
Optional[bool]

Indica se abilitare/disabilitare l'iterazione StackEnsemble. Se viene impostato enable_onnx_compatible_models flag, l'iterazione StackEnsemble verrà disabilitata. Analogamente, per le attività Timeseries, l'iterazione StackEnsemble verrà disabilitata per impostazione predefinita, per evitare rischi di overfitting a causa di un piccolo set di training usato per adattare il meta learner. Per altre informazioni sugli insiemi, vedere Configurazione dell'ensemble, impostazione predefinita none

enable_vote_ensemble
Optional[bool]

Indica se abilitare o disabilitare l'iterazione VotingEnsemble. Per altre informazioni sugli insiemi, vedere Configurazione dell'ensemble, impostazione predefinita none

stack_ensemble_settings
Optional[StackEnsembleSettings]

Impostazioni per l'iterazione StackEnsemble, il valore predefinito è Nessuno

ensemble_model_download_timeout
Optional[int]

Durante la generazione del modello VotingEnsemble e StackEnsemble, vengono scaricati più modelli montati delle esecuzioni figlio precedenti. Configurare questo parametro con un valore superiore a 300 secondi, se è necessario più tempo, il valore predefinito è Nessuno

allowed_training_algorithms
Optional[List[str]]

Elenco di nomi di modello da cercare per un esperimento. Se non specificato, tutti i modelli supportati per l'attività vengono usati meno tutti i modelli specificati nei blocked_training_algorithms modelli TensorFlow o deprecati, per impostazione predefinita none

blocked_training_algorithms
Optional[List[str]]

Elenco di algoritmi da ignorare per un esperimento, il valore predefinito è Nessuno

training_mode
Optional[Union[str, TabularTrainingMode]]

[Sperimentale] Modalità di training da usare. I valori possibili sono:

  • distributed: abilita il training distribuito per gli algoritmi supportati.

  • non_distributed: disabilita il training distribuito.

  • auto- Attualmente è uguale a non_distributed. In futuro, questo potrebbe cambiare.

Nota: questo parametro è disponibile in anteprima pubblica e può cambiare in futuro.

Eccezioni

Generato se il numero massimo è un percorso di file e il file esiste già.

Generato se il massimo è un file aperto e il file non è scrivibile.

Attributi

base_path

Percorso di base della risorsa.

Restituisce

Percorso di base della risorsa.

Tipo restituito

str

creation_context

Contesto di creazione della risorsa.

Restituisce

Metadati di creazione per la risorsa.

Tipo restituito

featurization

Ottenere le impostazioni di funzionalità tabulari per il processo AutoML.

Restituisce

Impostazioni di funzionalità tabulari per il processo AutoML

Tipo restituito

id

L'ID della risorsa.

Restituisce

ID globale della risorsa, ID di Azure Resource Manager (ARM).

Tipo restituito

inputs

limits

Ottenere i limiti tabulari per il processo AutoML.

Restituisce

Limiti tabulari per il processo AutoML

Tipo restituito

log_files

File di output del processo.

Restituisce

Dizionario di nomi e URL di log.

Tipo restituito

log_verbosity

Ottenere la verbosità del log per il processo AutoML.

Restituisce

verbosità del log per il processo AutoML

Tipo restituito

<xref:LogVerbosity>

outputs

primary_metric

Metrica primaria da usare per l'ottimizzazione.

Restituisce

Metrica primaria da usare per l'ottimizzazione.

Tipo restituito

status

Stato del processo.

I valori comuni restituiti includono "Running", "Completed" e "Failed". Tutti i valori possibili sono:

  • NotStarted: questo è uno stato temporaneo in cui gli oggetti Run lato client si trovano prima dell'invio nel cloud.

  • Avvio: l'esecuzione è stata avviata nell'elaborazione nel cloud. Il chiamante ha un ID di esecuzione a questo punto.

  • Provisioning: l'elaborazione su richiesta viene creata per un invio di processo specificato.

  • Preparazione: l'ambiente di esecuzione è in fase di preparazione ed è in una delle due fasi seguenti:

    • Compilazione di immagini Docker

    • configurazione dell'ambiente conda

  • Accodato: il processo viene accodato nella destinazione di calcolo. Ad esempio, in BatchAI il processo si trova in uno stato in coda

    in attesa che tutti i nodi richiesti siano pronti.

  • Esecuzione: il processo è stato avviato per l'esecuzione nella destinazione di calcolo.

  • Finalizzazione: l'esecuzione del codice utente è stata completata e l'esecuzione è in fasi di post-elaborazione.

  • CancelRequested: l'annullamento è stato richiesto per il processo.

  • Completato: l'esecuzione è stata completata correttamente. Ciò include sia l'esecuzione del codice utente che l'esecuzione

    fasi di post-elaborazione.

  • Impossibile: l'esecuzione non è riuscita. In genere la proprietà Error in un'esecuzione fornisce informazioni dettagliate sul motivo.

  • Annullata: segue una richiesta di annullamento e indica che l'esecuzione è stata annullata correttamente.

  • NotResponding: per le esecuzioni abilitate per Heartbeat, non è stato inviato di recente alcun heartbeat.

Restituisce

Stato del processo.

Tipo restituito

studio_url

Endpoint di Azure ML Studio.

Restituisce

URL della pagina dei dettagli del processo.

Tipo restituito

task_type

Ottenere il tipo di attività.

Restituisce

Tipo di attività da eseguire. I valori possibili includono: "classificazione", "regressione", "previsione".

Tipo restituito

str

test_data

Ottenere i dati di test.

Restituisce

Testare l'input dei dati

Tipo restituito

training

Impostazioni di training per il processo di classificazione AutoML.

Restituisce

Impostazioni di training usate per il processo di classificazione AutoML.

Tipo restituito

<xref:ClassificationTrainingSettings>

training_data

Ottenere i dati di training.

Restituisce

Input dati di training

Tipo restituito

type

Tipo del processo.

Restituisce

Tipo del processo.

Tipo restituito

validation_data

Ottenere i dati di convalida.

Restituisce

Input dati di convalida

Tipo restituito