ClassificationJob Classe
Configurazione per il processo di classificazione AutoML.
Inizializzare una nuova attività di classificazione AutoML.
- Ereditarietà
-
azure.ai.ml.entities._job.automl.tabular.automl_tabular.AutoMLTabularClassificationJob
Costruttore
ClassificationJob(*, primary_metric: str | None = None, positive_label: str | None = None, **kwargs)
Parametri
Metrica primaria da usare per l'ottimizzazione, impostazione predefinita none
Etichetta positiva per il calcolo delle metriche binarie, impostazione predefinita none
- featurization
- Optional[TabularFeaturizationSettings]
Impostazioni di funzionalità. Il valore predefinito è Nessuna.
- limits
- Optional[TabularLimitSettings]
Limiti delle impostazioni. Il valore predefinito è Nessuna.
- training
- Optional[TrainingSettings]
Impostazioni di training. Il valore predefinito è Nessuna.
Metrica primaria da usare per l'ottimizzazione, impostazione predefinita none
Etichetta positiva per il calcolo delle metriche binarie, impostazione predefinita none
- featurization
- Optional[TabularFeaturizationSettings]
impostazioni di funzionalità. Il valore predefinito è Nessuna.
- limits
- Optional[TabularLimitSettings]
limiti delle impostazioni. Il valore predefinito è Nessuna.
- training
- Optional[TrainingSettings]
impostazioni di training. Il valore predefinito è Nessuna.
Metodi
dump |
Esegue il dump del contenuto del processo in un file in formato YAML. |
set_data |
Definire la configurazione dei dati. |
set_featurization |
Definire la configurazione della progettazione delle funzionalità. |
set_limits |
Impostare i limiti per il processo. |
set_training |
Metodo per configurare le impostazioni correlate al training. |
dump
Esegue il dump del contenuto del processo in un file in formato YAML.
dump(dest: str | PathLike | IO, **kwargs) -> None
Parametri
Percorso locale o flusso di file in cui scrivere il contenuto YAML. Se il massimo è un percorso di file, verrà creato un nuovo file. Se il massimo è un file aperto, il file verrà scritto direttamente.
- kwargs
- dict
Argomenti aggiuntivi da passare al serializzatore YAML.
Eccezioni
Generato se il numero massimo è un percorso di file e il file esiste già.
Generato se il massimo è un file aperto e il file non è scrivibile.
set_data
Definire la configurazione dei dati.
set_data(*, training_data: Input, target_column_name: str, weight_column_name: str | None = None, validation_data: Input | None = None, validation_data_size: float | None = None, n_cross_validations: str | int | None = None, cv_split_column_names: List[str] | None = None, test_data: Input | None = None, test_data_size: float | None = None) -> None
Parametri
- training_data
- Input
Dati di training.
- target_column_name
- str
Nome colonna della colonna di destinazione.
Dimensioni dei dati di convalida, impostazione predefinita none
Eccezioni
Generato se il numero massimo è un percorso di file e il file esiste già.
Generato se il massimo è un file aperto e il file non è scrivibile.
set_featurization
Definire la configurazione della progettazione delle funzionalità.
set_featurization(*, blocked_transformers: List[BlockedTransformers | str] | None = None, column_name_and_types: Dict[str, str] | None = None, dataset_language: str | None = None, transformer_params: Dict[str, List[ColumnTransformer]] | None = None, mode: str | None = None, enable_dnn_featurization: bool | None = None) -> None
Parametri
- blocked_transformers
- Optional[List[Union[BlockedTransformers, str]]]
Elenco di nomi di trasformatori da bloccare durante la funzionalità, impostazione predefinita su Nessuno
Dizionario dei nomi delle colonne e dei tipi di funzionalità usati per aggiornare lo scopo della colonna , impostazione predefinita su Nessuno
Codice ISO 639-3 di tre caratteri per i linguaggi contenuti nel set di dati. Le lingue diverse dall'inglese sono supportate solo se si usa il calcolo abilitato per la GPU. L'language_code 'mul' deve essere usato se il set di dati contiene più lingue. Per trovare codici ISO 639-3 per lingue diverse, fare riferimento a https://en.wikipedia.org/wiki/List_of_ISO_639-3_codes, per impostazione predefinita none
- transformer_params
- Optional[Dict[str, List[ColumnTransformer]]]
Dizionario di trasformatori e parametri di personalizzazione corrispondenti, il valore predefinito è Nessuno
Indica se includere metodi di progettazione delle funzionalità basati su DNN, per impostazione predefinita None
Eccezioni
Generato se il numero massimo è un percorso di file e il file esiste già.
Generato se il massimo è un file aperto e il file non è scrivibile.
set_limits
Impostare i limiti per il processo.
set_limits(*, enable_early_termination: bool | None = None, exit_score: float | None = None, max_concurrent_trials: int | None = None, max_cores_per_trial: int | None = None, max_nodes: int | None = None, max_trials: int | None = None, timeout_minutes: int | None = None, trial_timeout_minutes: int | None = None) -> None
Parametri
Indica se abilitare la terminazione anticipata se il punteggio non migliora a breve termine, il valore predefinito è Nessuno.
Logica di arresto anticipato:
Nessuna sosta anticipata per le prime 20 iterazioni (punti di riferimento).
La finestra di arresto anticipato inizia la 21a iterazione e cerca early_stopping_n_iters iterazioni
(attualmente impostato su 10). Ciò significa che la prima iterazione in cui può verificarsi l'arresto è la 31.
AutoML pianifica ancora 2 iterazioni di ensemble DOPO l'arresto anticipato, il che potrebbe comportare punteggi più elevati.
L'arresto anticipato viene attivato se il valore assoluto del punteggio migliore calcolato è lo stesso per il passato
early_stopping_n_iters iterazioni, vale a dire se non esiste alcun miglioramento del punteggio per le iterazioni early_stopping_n_iters.
Punteggio di destinazione per l'esperimento. L'esperimento termina dopo il raggiungimento di questo punteggio. Se non viene specificato (nessun criterio), l'esperimento viene eseguito fino a quando non viene eseguito alcun ulteriore progresso sulla metrica primaria. Per altre informazioni sui criteri di uscita, vedere questo articolo , per impostazione predefinita None
Si tratta del numero massimo di iterazioni che verrebbero eseguite in parallelo. Il valore predefinito è 1.
- I cluster AmlCompute supportano un'iterazione in esecuzione per ogni nodo.
Per più esecuzioni padre dell'esperimento AutoML eseguite in parallelo in un singolo cluster AmlCompute, la somma dei max_concurrent_trials
valori per tutti gli esperimenti deve essere minore o uguale al numero massimo di nodi. In caso contrario, le esecuzioni verranno accodate finché i nodi non saranno disponibili.
- DSVM supporta più iterazioni per nodo.
max_concurrent_trials
Dovrebbe
essere minore o uguale al numero di core nella DSVM. Per più esperimenti eseguiti in parallelo in una singola DSVM, la somma dei max_concurrent_trials
valori per tutti gli esperimenti deve essere minore o uguale al numero massimo di nodi.
- Databricks:
max_concurrent_trials
deve essere minore o uguale al numero di
nodi di lavoro in Databricks.
max_concurrent_trials
non si applica alle esecuzioni locali. In precedenza, questo parametro era denominato concurrent_iterations
.
Numero massimo di thread da usare per una determinata iterazione di training. Valori accettabili:
Maggiore di 1 e minore o uguale al numero massimo di core nella destinazione di calcolo.
Uguale a -1, ovvero usare tutti i core possibili per ogni iterazione per ogni esecuzione figlio.
Uguale a 1, valore predefinito.
[Sperimentale] Numero massimo di nodi da usare per il training distribuito.
Per la previsione, ogni modello viene sottoposto a training usando nodi max(2, int(max_nodes/max_concurrent_trials)).
Per la classificazione/regressione, ogni modello viene sottoposto a training usando i nodi max_nodes.
Nota: questo parametro è disponibile in anteprima pubblica e potrebbe cambiare in futuro.
Numero totale di combinazioni di algoritmi e parametri diversi da testare durante un esperimento di Machine Learning automatizzato. Se non specificato, il valore predefinito è 1000 iterazioni.
Quantità massima di tempo, in minuti, che tutte le iterazioni combinate possono impiegare prima che l'esperimento venga terminato. Se non specificato, il timeout predefinito dell'esperimento è di 6 giorni. Per specificare un timeout minore o uguale a 1 ora, assicurarsi che le dimensioni del set di dati non siano maggiori di 10.000.000 (colonne di righe) o di un errore, il valore predefinito è Nessuno
Tempo massimo in minuti per cui ogni iterazione può essere eseguita prima che venga terminata. Se non specificato, viene utilizzato un valore pari a 1 mese o 43200 minuti, il valore predefinito è Nessuno
Eccezioni
Generato se il numero massimo è un percorso di file e il file esiste già.
Generato se il massimo è un file aperto e il file non è scrivibile.
set_training
Metodo per configurare le impostazioni correlate al training.
set_training(*, enable_onnx_compatible_models: bool | None = None, enable_dnn_training: bool | None = None, enable_model_explainability: bool | None = None, enable_stack_ensemble: bool | None = None, enable_vote_ensemble: bool | None = None, stack_ensemble_settings: StackEnsembleSettings | None = None, ensemble_model_download_timeout: int | None = None, allowed_training_algorithms: List[str] | None = None, blocked_training_algorithms: List[str] | None = None, training_mode: str | TrainingMode | None = None) -> None
Parametri
Indica se abilitare o disabilitare l'applicazione dei modelli compatibili con ONNX. Il valore predefinito è False. Per altre informazioni su Open Neural Network Exchange (ONNX) e Azure Machine Learning, vedere questo articolo.
Indica se includere modelli basati su DNN durante la selezione del modello. Il valore predefinito, tuttavia, è True per le attività NLP della rete neurale di rete e false per tutte le altre attività AutoML.
Indica se abilitare la spiegazione del modello AutoML migliore alla fine di tutte le iterazioni di training di AutoML. Per altre informazioni, vedere Interpretabilità: spiegazioni dei modelli in Machine Learning automatizzato. , il valore predefinito è Nessuno
Indica se abilitare/disabilitare l'iterazione StackEnsemble. Se viene impostato enable_onnx_compatible_models flag, l'iterazione StackEnsemble verrà disabilitata. Analogamente, per le attività Timeseries, l'iterazione StackEnsemble verrà disabilitata per impostazione predefinita, per evitare rischi di overfitting a causa di un piccolo set di training usato per adattare il meta learner. Per altre informazioni sugli insiemi, vedere Configurazione dell'ensemble, impostazione predefinita none
Indica se abilitare o disabilitare l'iterazione VotingEnsemble. Per altre informazioni sugli insiemi, vedere Configurazione dell'ensemble, impostazione predefinita none
- stack_ensemble_settings
- Optional[StackEnsembleSettings]
Impostazioni per l'iterazione StackEnsemble, il valore predefinito è Nessuno
Durante la generazione del modello VotingEnsemble e StackEnsemble, vengono scaricati più modelli montati delle esecuzioni figlio precedenti. Configurare questo parametro con un valore superiore a 300 secondi, se è necessario più tempo, il valore predefinito è Nessuno
Elenco di nomi di modello da cercare per un esperimento. Se non specificato, tutti i modelli supportati per l'attività vengono usati meno tutti i modelli specificati nei blocked_training_algorithms
modelli TensorFlow o deprecati, per impostazione predefinita none
Elenco di algoritmi da ignorare per un esperimento, il valore predefinito è Nessuno
- training_mode
- Optional[Union[str, TabularTrainingMode]]
[Sperimentale] Modalità di training da usare. I valori possibili sono:
distributed: abilita il training distribuito per gli algoritmi supportati.
non_distributed: disabilita il training distribuito.
auto- Attualmente è uguale a non_distributed. In futuro, questo potrebbe cambiare.
Nota: questo parametro è disponibile in anteprima pubblica e può cambiare in futuro.
Eccezioni
Generato se il numero massimo è un percorso di file e il file esiste già.
Generato se il massimo è un file aperto e il file non è scrivibile.
Attributi
base_path
creation_context
Contesto di creazione della risorsa.
Restituisce
Metadati di creazione per la risorsa.
Tipo restituito
featurization
Ottenere le impostazioni di funzionalità tabulari per il processo AutoML.
Restituisce
Impostazioni di funzionalità tabulari per il processo AutoML
Tipo restituito
id
L'ID della risorsa.
Restituisce
ID globale della risorsa, ID di Azure Resource Manager (ARM).
Tipo restituito
inputs
limits
Ottenere i limiti tabulari per il processo AutoML.
Restituisce
Limiti tabulari per il processo AutoML
Tipo restituito
log_files
File di output del processo.
Restituisce
Dizionario di nomi e URL di log.
Tipo restituito
log_verbosity
Ottenere la verbosità del log per il processo AutoML.
Restituisce
verbosità del log per il processo AutoML
Tipo restituito
outputs
primary_metric
Metrica primaria da usare per l'ottimizzazione.
Restituisce
Metrica primaria da usare per l'ottimizzazione.
Tipo restituito
status
Stato del processo.
I valori comuni restituiti includono "Running", "Completed" e "Failed". Tutti i valori possibili sono:
NotStarted: questo è uno stato temporaneo in cui gli oggetti Run lato client si trovano prima dell'invio nel cloud.
Avvio: l'esecuzione è stata avviata nell'elaborazione nel cloud. Il chiamante ha un ID di esecuzione a questo punto.
Provisioning: l'elaborazione su richiesta viene creata per un invio di processo specificato.
Preparazione: l'ambiente di esecuzione è in fase di preparazione ed è in una delle due fasi seguenti:
Compilazione di immagini Docker
configurazione dell'ambiente conda
Accodato: il processo viene accodato nella destinazione di calcolo. Ad esempio, in BatchAI il processo si trova in uno stato in coda
in attesa che tutti i nodi richiesti siano pronti.
Esecuzione: il processo è stato avviato per l'esecuzione nella destinazione di calcolo.
Finalizzazione: l'esecuzione del codice utente è stata completata e l'esecuzione è in fasi di post-elaborazione.
CancelRequested: l'annullamento è stato richiesto per il processo.
Completato: l'esecuzione è stata completata correttamente. Ciò include sia l'esecuzione del codice utente che l'esecuzione
fasi di post-elaborazione.
Impossibile: l'esecuzione non è riuscita. In genere la proprietà Error in un'esecuzione fornisce informazioni dettagliate sul motivo.
Annullata: segue una richiesta di annullamento e indica che l'esecuzione è stata annullata correttamente.
NotResponding: per le esecuzioni abilitate per Heartbeat, non è stato inviato di recente alcun heartbeat.
Restituisce
Stato del processo.
Tipo restituito
studio_url
Endpoint di Azure ML Studio.
Restituisce
URL della pagina dei dettagli del processo.
Tipo restituito
task_type
Ottenere il tipo di attività.
Restituisce
Tipo di attività da eseguire. I valori possibili includono: "classificazione", "regressione", "previsione".
Tipo restituito
test_data
training
Impostazioni di training per il processo di classificazione AutoML.
Restituisce
Impostazioni di training usate per il processo di classificazione AutoML.
Tipo restituito
training_data
type
validation_data
Azure SDK for Python