ClassificationJob Classe

Referência

Configuração para Trabalho de Classificação de AutoML.

Inicialize uma nova tarefa de Classificação de AutoML.

Herança: azure.ai.ml.entities._job.automl.tabular.automl_tabular.AutoMLTabular

ClassificationJob

Construtor

ClassificationJob(*, primary_metric: str | None = None, positive_label: str | None = None, **kwargs)

Parâmetros

primary_metric: Optional[str]

A métrica primária a ser usada para otimização, o padrão é None

positive_label: Optional[str]

Rótulo positivo para cálculo de métricas binárias, o padrão é Nenhum

featurization: Optional[TabularFeaturizationSettings]

Configurações de definição de recursos. Assume o valor padrão de Nenhum.

limits: Optional[TabularLimitSettings]

Limita as configurações. Assume o valor padrão de Nenhum.

training: Optional[TrainingSettings]

Configurações de treinamento. Assume o valor padrão de Nenhum.

primary_metric: Optional[str]

A métrica primária a ser usada para otimização, o padrão é None

positive_label: Optional[str]

Rótulo positivo para cálculo de métricas binárias, o padrão é Nenhum

featurization: Optional[TabularFeaturizationSettings]

configurações de definição de recursos. Assume o valor padrão de Nenhum.

limits: Optional[TabularLimitSettings]

limita as configurações. Assume o valor padrão de Nenhum.

training: Optional[TrainingSettings]

configurações de treinamento. Assume o valor padrão de Nenhum.

Métodos

dump	Despeja o conteúdo do trabalho em um arquivo no formato YAML.
set_data	Definir a configuração de dados.
set_featurization	Defina a configuração de engenharia de recursos.
set_limits	Defina limites para o trabalho.
set_training	O método para definir as configurações relacionadas ao treinamento.

dump

Despeja o conteúdo do trabalho em um arquivo no formato YAML.

dump(dest: str | PathLike | IO, **kwargs) -> None

Parâmetros

dest: Union[<xref:PathLike>, str, IO[AnyStr]]

Obrigatório

O caminho local ou o fluxo de arquivos no qual gravar o conteúdo YAML. Se dest for um caminho de arquivo, um novo arquivo será criado. Se dest for um arquivo aberto, o arquivo será gravado diretamente.

kwargs: dict

Argumentos adicionais a serem passados para o serializador YAML.

Exceções

FileExistsError

Gerado se dest for um caminho de arquivo e o arquivo já existir.

IOError

Gerado se dest for um arquivo aberto e o arquivo não for gravável.

set_data

Definir a configuração de dados.

set_data(*, training_data: Input, target_column_name: str, weight_column_name: str | None = None, validation_data: Input | None = None, validation_data_size: float | None = None, n_cross_validations: str | int | None = None, cv_split_column_names: List[str] | None = None, test_data: Input | None = None, test_data_size: float | None = None) -> None

Parâmetros

training_data: Input

Dados de treinamento.

target_column_name: str

Nome da coluna de destino.

weight_column_name: Optional[str]

Nome da coluna de peso, o padrão é Nenhum

validation_data: Optional[Input]

Dados de validação, o padrão é Nenhum

validation_data_size: Optional[float]

Tamanho dos dados de validação, o padrão é Nenhum

n_cross_validations: Optional[Union[str, int]]

n_cross_validations, o padrão é Nenhum

cv_split_column_names: Optional[List[str]]

cv_split_column_names, o padrão é Nenhum

test_data: Optional[Input]

Dados de teste, o padrão é Nenhum

test_data_size: Optional[float]

Tamanho dos dados de teste, o padrão é Nenhum

Exceções

FileExistsError

Gerado se dest for um caminho de arquivo e o arquivo já existir.

IOError

Gerado se dest for um arquivo aberto e o arquivo não for gravável.

set_featurization

Defina a configuração de engenharia de recursos.

set_featurization(*, blocked_transformers: List[BlockedTransformers | str] | None = None, column_name_and_types: Dict[str, str] | None = None, dataset_language: str | None = None, transformer_params: Dict[str, List[ColumnTransformer]] | None = None, mode: str | None = None, enable_dnn_featurization: bool | None = None) -> None

Parâmetros

blocked_transformers: Optional[List[Union[BlockedTransformers, str]]]

Uma lista de nomes de transformador a serem bloqueados durante a definição de recursos, o padrão é Nenhum

column_name_and_types: Optional[Dict[str, str]]

Um dicionário de nomes de coluna e tipos de recursos usados para atualizar a finalidade da coluna , usa como padrão Nenhum

dataset_language: Optional[str]

Código ISO 639-3 de três caracteres para os idiomas contidos no conjunto de dados. Há suporte para idiomas diferentes do inglês se você usar a computação habilitada para GPU. O language_code 'mul' deverá ser usado se o conjunto de dados contiver vários idiomas. Para localizar códigos ISO 639-3 para idiomas diferentes, consulte https://en.wikipedia.org/wiki/List_of_ISO_639-3_codes, padrão como Nenhum

transformer_params: Optional[Dict[str, List[ColumnTransformer]]]

Um dicionário de transformador e parâmetros de personalização correspondentes , o padrão é Nenhum

mode: Optional[str]

"off", "auto", usa como padrão "auto", o padrão é None

enable_dnn_featurization: Optional[bool]

Se os métodos de engenharia de recursos baseados em DNN devem ser incluídos, o padrão é Nenhum

Exceções

FileExistsError

Gerado se dest for um caminho de arquivo e o arquivo já existir.

IOError

Gerado se dest for um arquivo aberto e o arquivo não for gravável.

set_limits

Defina limites para o trabalho.

set_limits(*, enable_early_termination: bool | None = None, exit_score: float | None = None, max_concurrent_trials: int | None = None, max_cores_per_trial: int | None = None, max_nodes: int | None = None, max_trials: int | None = None, timeout_minutes: int | None = None, trial_timeout_minutes: int | None = None) -> None

Parâmetros

enable_early_termination: Optional[bool]

Se o encerramento antecipado deve ser habilitado se a pontuação não estiver melhorando no curto prazo, o padrão será Nenhum.

Lógica de parada antecipada:

Nenhuma parada antecipada para as primeiras 20 iterações (marcos).
A janela de parada antecipada começa na parte 21 da iteração e procura iterações early_stopping_n_iters

(definido atualmente como 10). Isso significa que a primeira iteração em que a interrupção pode ocorrer é na parte 31.
O AutoML ainda agenda duas iterações de conjunto após a parada antecipada, o que pode resultar em pontuações mais altas.
A interrupção antecipada será disparada se o valor absoluto da melhor pontuação calculada for o mesmo para as últimas

iterações early_stopping_n_iters, ou seja, se não houver nenhuma melhoria na pontuação das iterações early_stopping_n_iters.

exit_score: Optional[float]

Pontuação de destino para o experimento. O experimento termina depois que essa pontuação é atingida. Se não for especificado (nenhum critério), o experimento será executado até que nenhum outro progresso seja feito na métrica primária. Para obter mais informações sobre critérios de saída, consulte este artigo , padrão como Nenhum

max_concurrent_trials: Optional[int]

Esse é o número máximo de iterações que seriam executadas em paralelo. O valor padrão é 1.

Os clusters AmlCompute dão suporte a uma iteração em execução por nó.

Para várias execuções pai do experimento de AutoML em paralelo em um único cluster AmlCompute, a soma dos valores de max_concurrent_trials para todos os experimentos deve ser menor ou igual ao número máximo de nós. Caso contrário, as execuções serão enfileiradas até que os nós estejam disponíveis.

O DSVM dá suporte a várias iterações por nó. max_concurrent_trials Deve

ser menor ou igual ao número de núcleos na DSVM. Para várias execuções do experimento em paralelo em um único DSVM, a soma dos valores de max_concurrent_trials para todos os experimentos deve ser menor ou igual ao número máximo de nós.

Databricks – max_concurrent_trials deve ser menor ou igual ao número de

nós de trabalho no Databricks.

max_concurrent_trials não se aplica a execuções locais. Anteriormente, esse parâmetro foi nomeado como concurrent_iterations.

max_cores_per_trial: Optional[int]

O número máximo de threads a serem usados para uma determinada iteração de treinamento. Valores aceitáveis:

Maior que 1 e menor ou igual ao número máximo de núcleos no destino de computação.
Igual a -1, o que significa usar todos os núcleos possíveis por iteração e por execução filho.
Igual a 1, o padrão.

max_nodes: Optional[int]

[Experimental] O número máximo de nós a serem usados para treinamento distribuído.

Para previsão, cada modelo é treinado usando nós max(2, int(max_nodes/max_concurrent_trials)).
Para classificação/regressão, cada modelo é treinado usando nós max_nodes.

Observação- Esse parâmetro está em versão prévia pública e pode ser alterado no futuro.

max_trials: Optional[int]

O número total de combinações diferentes de algoritmo e parâmetro a serem testadas durante um experimento do ML automatizado. Se não for especificado, o padrão será 1000 iterações.

timeout_minutes: Optional[int]

Quantidade máxima de tempo em minutos que todas as iterações combinadas podem levar antes que o experimento seja encerrado. Se não for especificado, o tempo limite do experimento padrão será de 6 dias. Para especificar um tempo limite menor ou igual a 1 hora, verifique se o tamanho do conjunto de dados não é maior que 10.000.000 (coluna de horas de linhas) ou um resultado de erro, o padrão é Nenhum

trial_timeout_minutes: Optional[int]

Tempo máximo em minutos em que cada iteração pode ser executada antes de ser terminada. Se não for especificado, um valor de 1 mês ou 43200 minutos será usado, o padrão é Nenhum

Exceções

FileExistsError

Gerado se dest for um caminho de arquivo e o arquivo já existir.

IOError

Gerado se dest for um arquivo aberto e o arquivo não for gravável.

set_training

O método para definir as configurações relacionadas ao treinamento.

set_training(*, enable_onnx_compatible_models: bool | None = None, enable_dnn_training: bool | None = None, enable_model_explainability: bool | None = None, enable_stack_ensemble: bool | None = None, enable_vote_ensemble: bool | None = None, stack_ensemble_settings: StackEnsembleSettings | None = None, ensemble_model_download_timeout: int | None = None, allowed_training_algorithms: List[str] | None = None, blocked_training_algorithms: List[str] | None = None, training_mode: str | TrainingMode | None = None) -> None

Parâmetros

enable_onnx_compatible_models: Optional[bool]

Se deve habilitar ou desabilitar a imposição de modelos compatíveis com ONNX. O padrão é False. Para obter mais informações sobre o ONNX (Open Neural Network Exchange) e o Azure Machine Learning, consulte este artigo.

enable_dnn_training: Optional[bool]

Se deve incluir modelos baseados em DNN durante a seleção do modelo. No entanto, o padrão é True para tarefas do DNN NLP e False para todas as outras tarefas do AutoML.

enable_model_explainability: Optional[bool]

Se deve habilitar a explicação do melhor modelo do AutoML no final de todas as iterações de treinamento do AutoML. Para obter mais informações, consulte Interpretabilidade: explicações de modelo no machine learning automatizado. , usa como padrão Nenhum

enable_stack_ensemble: Optional[bool]

Se deve habilitar/desabilitar a iteração StackEnsemble. Se o sinalizador enable_onnx_compatible_models estiver sendo definido, a iteração StackEnsemble será desabilitada. Da mesma forma, para tarefas da série temporal, a iteração StackEnsemble será desabilitada por padrão, para evitar riscos de sobreajuste devido a um pequeno conjunto de treinamento usado para ajustar o aprendiz meta. Para obter mais informações sobre ensembles, consulte Configuração do Ensemble , padrão para Nenhum

enable_vote_ensemble: Optional[bool]

Se deve habilitar/desabilitar a iteração VotingEnsemble. Para obter mais informações sobre ensembles, consulte Configuração do Ensemble , padrão para Nenhum

stack_ensemble_settings: Optional[StackEnsembleSettings]

Configurações para iteração StackEnsemble, o padrão é Nenhum

ensemble_model_download_timeout: Optional[int]

Durante a geração de modelo VotingEnsemble e StackEnsemble, vários modelos ajustados das execuções filho anteriores são baixados. Configure esse parâmetro com um valor superior a 300 segundos, se for necessário mais tempo, o padrão será Nenhum

allowed_training_algorithms: Optional[List[str]]

Uma lista de nomes de modelos para pesquisar um experimento. Se não for especificado, todos os modelos com suporte para a tarefa serão usados menos os modelos do TensorFlow especificados blocked_training_algorithms ou preteridos, o padrão é Nenhum

blocked_training_algorithms: Optional[List[str]]

Uma lista de algoritmos a serem ignorados para um experimento, o padrão é Nenhum

training_mode: Optional[Union[str, TabularTrainingMode]]

[Experimental] O modo de treinamento a ser usado. Os valores possíveis são-

distributed- habilita o treinamento distribuído para algoritmos com suporte.
non_distributed- desabilita o treinamento distribuído.
auto- Atualmente, é o mesmo que non_distributed. No futuro, isso pode mudar.

Observação: esse parâmetro está em versão prévia pública e pode ser alterado no futuro.

Exceções

FileExistsError

Gerado se dest for um caminho de arquivo e o arquivo já existir.

IOError

Gerado se dest for um arquivo aberto e o arquivo não for gravável.

Optional[str]

<xref:LogVerbosity>

outputs

primary_metric

A métrica primária a ser usada para otimização.

Retornos

A métrica primária a ser usada para otimização.

Tipo de retorno

Union[str, ClassificationPrimaryMetrics]

status

O status do trabalho.

Os valores comuns retornados incluem "Running", "Completed" e "Failed". Todos os valores possíveis são:

NotStarted - Esse é um estado temporário em que os objetos Run do lado do cliente estão antes do envio à nuvem.
Starting – A Execução começou a ser processada na nuvem. O chamador tem uma ID de execução neste ponto.
Provisionamento – a computação sob demanda está sendo criada para um determinado envio de trabalho.
Preparando – o ambiente de execução está sendo preparado e está em um dos dois estágios:
- Build de imagem do Docker
- conda environment setup
Enfileirado – o trabalho está na fila no destino de computação. Por exemplo, no BatchAI, o trabalho está em um estado enfileirado

enquanto aguarda que todos os nós solicitados estejam prontos.
Em execução – o trabalho começou a ser executado no destino de computação.
Finalização – a execução do código do usuário foi concluída e a execução está em estágios de pós-processamento.
CancelRequested – O cancelamento foi solicitado para o trabalho.
Concluído – a execução foi concluída com êxito. Isso inclui a execução e a execução do código do usuário

estágios de pós-processamento.
Failed – A execução falhou. Normalmente, a propriedade de Erro em uma execução fornecerá detalhes sobre o motivo.
Canceled – Segue uma solicitação de cancelamento e indica que a execução foi cancelada com êxito.
NotResponding – Para execuções que têm Pulsações habilitadas, nenhuma pulsação foi enviada recentemente.

Construtor

Parâmetros

Métodos

dump

Parâmetros

Exceções

set_data

Parâmetros

Exceções

set_featurization

Parâmetros

Exceções

set_limits

Parâmetros

Exceções

set_training

Parâmetros

Exceções

Atributos

base_path

Retornos

Tipo de retorno

creation_context

Retornos

Tipo de retorno

featurization

Retornos

Tipo de retorno

id

Retornos

Tipo de retorno

inputs

limits

Retornos

Tipo de retorno

log_files

Retornos

Tipo de retorno

log_verbosity

Retornos

Tipo de retorno

outputs

primary_metric

Retornos

Tipo de retorno

status

Retornos

Tipo de retorno

studio_url

Retornos

Tipo de retorno

task_type

Retornos

Tipo de retorno

test_data

Retornos

Tipo de retorno

training

Retornos

Tipo de retorno

training_data

Retornos

Tipo de retorno

type

Retornos

Tipo de retorno

validation_data

Retornos

Tipo de retorno

Recursos adicionais