Compartilhar via


ClassificationJob Classe

Configuração para Trabalho de Classificação de AutoML.

Inicialize uma nova tarefa de Classificação de AutoML.

Herança
azure.ai.ml.entities._job.automl.tabular.automl_tabular.AutoMLTabular
ClassificationJob

Construtor

ClassificationJob(*, primary_metric: str | None = None, positive_label: str | None = None, **kwargs)

Parâmetros

primary_metric
Optional[str]

A métrica primária a ser usada para otimização, o padrão é None

positive_label
Optional[str]

Rótulo positivo para cálculo de métricas binárias, o padrão é Nenhum

featurization
Optional[TabularFeaturizationSettings]

Configurações de definição de recursos. Assume o valor padrão de Nenhum.

limits
Optional[TabularLimitSettings]

Limita as configurações. Assume o valor padrão de Nenhum.

training
Optional[TrainingSettings]

Configurações de treinamento. Assume o valor padrão de Nenhum.

primary_metric
Optional[str]

A métrica primária a ser usada para otimização, o padrão é None

positive_label
Optional[str]

Rótulo positivo para cálculo de métricas binárias, o padrão é Nenhum

featurization
Optional[TabularFeaturizationSettings]

configurações de definição de recursos. Assume o valor padrão de Nenhum.

limits
Optional[TabularLimitSettings]

limita as configurações. Assume o valor padrão de Nenhum.

training
Optional[TrainingSettings]

configurações de treinamento. Assume o valor padrão de Nenhum.

Métodos

dump

Despeja o conteúdo do trabalho em um arquivo no formato YAML.

set_data

Definir a configuração de dados.

set_featurization

Defina a configuração de engenharia de recursos.

set_limits

Defina limites para o trabalho.

set_training

O método para definir as configurações relacionadas ao treinamento.

dump

Despeja o conteúdo do trabalho em um arquivo no formato YAML.

dump(dest: str | PathLike | IO, **kwargs) -> None

Parâmetros

dest
Union[<xref:PathLike>, str, IO[AnyStr]]
Obrigatório

O caminho local ou o fluxo de arquivos no qual gravar o conteúdo YAML. Se dest for um caminho de arquivo, um novo arquivo será criado. Se dest for um arquivo aberto, o arquivo será gravado diretamente.

kwargs
dict

Argumentos adicionais a serem passados para o serializador YAML.

Exceções

Gerado se dest for um caminho de arquivo e o arquivo já existir.

Gerado se dest for um arquivo aberto e o arquivo não for gravável.

set_data

Definir a configuração de dados.

set_data(*, training_data: Input, target_column_name: str, weight_column_name: str | None = None, validation_data: Input | None = None, validation_data_size: float | None = None, n_cross_validations: str | int | None = None, cv_split_column_names: List[str] | None = None, test_data: Input | None = None, test_data_size: float | None = None) -> None

Parâmetros

training_data
Input

Dados de treinamento.

target_column_name
str

Nome da coluna de destino.

weight_column_name
Optional[str]

Nome da coluna de peso, o padrão é Nenhum

validation_data
Optional[Input]

Dados de validação, o padrão é Nenhum

validation_data_size
Optional[float]

Tamanho dos dados de validação, o padrão é Nenhum

n_cross_validations
Optional[Union[str, int]]

n_cross_validations, o padrão é Nenhum

cv_split_column_names
Optional[List[str]]

cv_split_column_names, o padrão é Nenhum

test_data
Optional[Input]

Dados de teste, o padrão é Nenhum

test_data_size
Optional[float]

Tamanho dos dados de teste, o padrão é Nenhum

Exceções

Gerado se dest for um caminho de arquivo e o arquivo já existir.

Gerado se dest for um arquivo aberto e o arquivo não for gravável.

set_featurization

Defina a configuração de engenharia de recursos.

set_featurization(*, blocked_transformers: List[BlockedTransformers | str] | None = None, column_name_and_types: Dict[str, str] | None = None, dataset_language: str | None = None, transformer_params: Dict[str, List[ColumnTransformer]] | None = None, mode: str | None = None, enable_dnn_featurization: bool | None = None) -> None

Parâmetros

blocked_transformers
Optional[List[Union[BlockedTransformers, str]]]

Uma lista de nomes de transformador a serem bloqueados durante a definição de recursos, o padrão é Nenhum

column_name_and_types
Optional[Dict[str, str]]

Um dicionário de nomes de coluna e tipos de recursos usados para atualizar a finalidade da coluna , usa como padrão Nenhum

dataset_language
Optional[str]

Código ISO 639-3 de três caracteres para os idiomas contidos no conjunto de dados. Há suporte para idiomas diferentes do inglês se você usar a computação habilitada para GPU. O language_code 'mul' deverá ser usado se o conjunto de dados contiver vários idiomas. Para localizar códigos ISO 639-3 para idiomas diferentes, consulte https://en.wikipedia.org/wiki/List_of_ISO_639-3_codes, padrão como Nenhum

transformer_params
Optional[Dict[str, List[ColumnTransformer]]]

Um dicionário de transformador e parâmetros de personalização correspondentes , o padrão é Nenhum

mode
Optional[str]

"off", "auto", usa como padrão "auto", o padrão é None

enable_dnn_featurization
Optional[bool]

Se os métodos de engenharia de recursos baseados em DNN devem ser incluídos, o padrão é Nenhum

Exceções

Gerado se dest for um caminho de arquivo e o arquivo já existir.

Gerado se dest for um arquivo aberto e o arquivo não for gravável.

set_limits

Defina limites para o trabalho.

set_limits(*, enable_early_termination: bool | None = None, exit_score: float | None = None, max_concurrent_trials: int | None = None, max_cores_per_trial: int | None = None, max_nodes: int | None = None, max_trials: int | None = None, timeout_minutes: int | None = None, trial_timeout_minutes: int | None = None) -> None

Parâmetros

enable_early_termination
Optional[bool]

Se o encerramento antecipado deve ser habilitado se a pontuação não estiver melhorando no curto prazo, o padrão será Nenhum.

Lógica de parada antecipada:

  • Nenhuma parada antecipada para as primeiras 20 iterações (marcos).

  • A janela de parada antecipada começa na parte 21 da iteração e procura iterações early_stopping_n_iters

    (definido atualmente como 10). Isso significa que a primeira iteração em que a interrupção pode ocorrer é na parte 31.

  • O AutoML ainda agenda duas iterações de conjunto após a parada antecipada, o que pode resultar em pontuações mais altas.

  • A interrupção antecipada será disparada se o valor absoluto da melhor pontuação calculada for o mesmo para as últimas

    iterações early_stopping_n_iters, ou seja, se não houver nenhuma melhoria na pontuação das iterações early_stopping_n_iters.

exit_score
Optional[float]

Pontuação de destino para o experimento. O experimento termina depois que essa pontuação é atingida. Se não for especificado (nenhum critério), o experimento será executado até que nenhum outro progresso seja feito na métrica primária. Para obter mais informações sobre critérios de saída, consulte este artigo , padrão como Nenhum

max_concurrent_trials
Optional[int]

Esse é o número máximo de iterações que seriam executadas em paralelo. O valor padrão é 1.

  • Os clusters AmlCompute dão suporte a uma iteração em execução por nó.

Para várias execuções pai do experimento de AutoML em paralelo em um único cluster AmlCompute, a soma dos valores de max_concurrent_trials para todos os experimentos deve ser menor ou igual ao número máximo de nós. Caso contrário, as execuções serão enfileiradas até que os nós estejam disponíveis.

  • O DSVM dá suporte a várias iterações por nó. max_concurrent_trials Deve

ser menor ou igual ao número de núcleos na DSVM. Para várias execuções do experimento em paralelo em um único DSVM, a soma dos valores de max_concurrent_trials para todos os experimentos deve ser menor ou igual ao número máximo de nós.

  • Databricks – max_concurrent_trials deve ser menor ou igual ao número de

nós de trabalho no Databricks.

max_concurrent_trials não se aplica a execuções locais. Anteriormente, esse parâmetro foi nomeado como concurrent_iterations.

max_cores_per_trial
Optional[int]

O número máximo de threads a serem usados para uma determinada iteração de treinamento. Valores aceitáveis:

  • Maior que 1 e menor ou igual ao número máximo de núcleos no destino de computação.

  • Igual a -1, o que significa usar todos os núcleos possíveis por iteração e por execução filho.

  • Igual a 1, o padrão.

max_nodes
Optional[int]

[Experimental] O número máximo de nós a serem usados para treinamento distribuído.

  • Para previsão, cada modelo é treinado usando nós max(2, int(max_nodes/max_concurrent_trials)).

  • Para classificação/regressão, cada modelo é treinado usando nós max_nodes.

Observação- Esse parâmetro está em versão prévia pública e pode ser alterado no futuro.

max_trials
Optional[int]

O número total de combinações diferentes de algoritmo e parâmetro a serem testadas durante um experimento do ML automatizado. Se não for especificado, o padrão será 1000 iterações.

timeout_minutes
Optional[int]

Quantidade máxima de tempo em minutos que todas as iterações combinadas podem levar antes que o experimento seja encerrado. Se não for especificado, o tempo limite do experimento padrão será de 6 dias. Para especificar um tempo limite menor ou igual a 1 hora, verifique se o tamanho do conjunto de dados não é maior que 10.000.000 (coluna de horas de linhas) ou um resultado de erro, o padrão é Nenhum

trial_timeout_minutes
Optional[int]

Tempo máximo em minutos em que cada iteração pode ser executada antes de ser terminada. Se não for especificado, um valor de 1 mês ou 43200 minutos será usado, o padrão é Nenhum

Exceções

Gerado se dest for um caminho de arquivo e o arquivo já existir.

Gerado se dest for um arquivo aberto e o arquivo não for gravável.

set_training

O método para definir as configurações relacionadas ao treinamento.

set_training(*, enable_onnx_compatible_models: bool | None = None, enable_dnn_training: bool | None = None, enable_model_explainability: bool | None = None, enable_stack_ensemble: bool | None = None, enable_vote_ensemble: bool | None = None, stack_ensemble_settings: StackEnsembleSettings | None = None, ensemble_model_download_timeout: int | None = None, allowed_training_algorithms: List[str] | None = None, blocked_training_algorithms: List[str] | None = None, training_mode: str | TrainingMode | None = None) -> None

Parâmetros

enable_onnx_compatible_models
Optional[bool]

Se deve habilitar ou desabilitar a imposição de modelos compatíveis com ONNX. O padrão é False. Para obter mais informações sobre o ONNX (Open Neural Network Exchange) e o Azure Machine Learning, consulte este artigo.

enable_dnn_training
Optional[bool]

Se deve incluir modelos baseados em DNN durante a seleção do modelo. No entanto, o padrão é True para tarefas do DNN NLP e False para todas as outras tarefas do AutoML.

enable_model_explainability
Optional[bool]

Se deve habilitar a explicação do melhor modelo do AutoML no final de todas as iterações de treinamento do AutoML. Para obter mais informações, consulte Interpretabilidade: explicações de modelo no machine learning automatizado. , usa como padrão Nenhum

enable_stack_ensemble
Optional[bool]

Se deve habilitar/desabilitar a iteração StackEnsemble. Se o sinalizador enable_onnx_compatible_models estiver sendo definido, a iteração StackEnsemble será desabilitada. Da mesma forma, para tarefas da série temporal, a iteração StackEnsemble será desabilitada por padrão, para evitar riscos de sobreajuste devido a um pequeno conjunto de treinamento usado para ajustar o aprendiz meta. Para obter mais informações sobre ensembles, consulte Configuração do Ensemble , padrão para Nenhum

enable_vote_ensemble
Optional[bool]

Se deve habilitar/desabilitar a iteração VotingEnsemble. Para obter mais informações sobre ensembles, consulte Configuração do Ensemble , padrão para Nenhum

stack_ensemble_settings
Optional[StackEnsembleSettings]

Configurações para iteração StackEnsemble, o padrão é Nenhum

ensemble_model_download_timeout
Optional[int]

Durante a geração de modelo VotingEnsemble e StackEnsemble, vários modelos ajustados das execuções filho anteriores são baixados. Configure esse parâmetro com um valor superior a 300 segundos, se for necessário mais tempo, o padrão será Nenhum

allowed_training_algorithms
Optional[List[str]]

Uma lista de nomes de modelos para pesquisar um experimento. Se não for especificado, todos os modelos com suporte para a tarefa serão usados menos os modelos do TensorFlow especificados blocked_training_algorithms ou preteridos, o padrão é Nenhum

blocked_training_algorithms
Optional[List[str]]

Uma lista de algoritmos a serem ignorados para um experimento, o padrão é Nenhum

training_mode
Optional[Union[str, TabularTrainingMode]]

[Experimental] O modo de treinamento a ser usado. Os valores possíveis são-

  • distributed- habilita o treinamento distribuído para algoritmos com suporte.

  • non_distributed- desabilita o treinamento distribuído.

  • auto- Atualmente, é o mesmo que non_distributed. No futuro, isso pode mudar.

Observação: esse parâmetro está em versão prévia pública e pode ser alterado no futuro.

Exceções

Gerado se dest for um caminho de arquivo e o arquivo já existir.

Gerado se dest for um arquivo aberto e o arquivo não for gravável.

Atributos

base_path

O caminho base do recurso.

Retornos

O caminho base do recurso.

Tipo de retorno

str

creation_context

O contexto de criação do recurso.

Retornos

Os metadados de criação para o recurso.

Tipo de retorno

featurization

Obtenha as configurações de definição de recursos tabulares para o trabalho do AutoML.

Retornos

Configurações de definição de recursos tabulares para o trabalho do AutoML

Tipo de retorno

id

A ID do recurso.

Retornos

A ID global do recurso, uma ID do ARM (Resource Manager do Azure).

Tipo de retorno

inputs

limits

Obtenha os limites tabulares para o trabalho do AutoML.

Retornos

Limites tabulares para o trabalho do AutoML

Tipo de retorno

log_files

Arquivos de saída do trabalho.

Retornos

O dicionário de nomes de log e URLs.

Tipo de retorno

log_verbosity

Obtenha o detalhamento do log para o trabalho do AutoML.

Retornos

detalhamento de log para o trabalho do AutoML

Tipo de retorno

<xref:LogVerbosity>

outputs

primary_metric

A métrica primária a ser usada para otimização.

Retornos

A métrica primária a ser usada para otimização.

Tipo de retorno

status

O status do trabalho.

Os valores comuns retornados incluem "Running", "Completed" e "Failed". Todos os valores possíveis são:

  • NotStarted - Esse é um estado temporário em que os objetos Run do lado do cliente estão antes do envio à nuvem.

  • Starting – A Execução começou a ser processada na nuvem. O chamador tem uma ID de execução neste ponto.

  • Provisionamento – a computação sob demanda está sendo criada para um determinado envio de trabalho.

  • Preparando – o ambiente de execução está sendo preparado e está em um dos dois estágios:

    • Build de imagem do Docker

    • conda environment setup

  • Enfileirado – o trabalho está na fila no destino de computação. Por exemplo, no BatchAI, o trabalho está em um estado enfileirado

    enquanto aguarda que todos os nós solicitados estejam prontos.

  • Em execução – o trabalho começou a ser executado no destino de computação.

  • Finalização – a execução do código do usuário foi concluída e a execução está em estágios de pós-processamento.

  • CancelRequested – O cancelamento foi solicitado para o trabalho.

  • Concluído – a execução foi concluída com êxito. Isso inclui a execução e a execução do código do usuário

    estágios de pós-processamento.

  • Failed – A execução falhou. Normalmente, a propriedade de Erro em uma execução fornecerá detalhes sobre o motivo.

  • Canceled – Segue uma solicitação de cancelamento e indica que a execução foi cancelada com êxito.

  • NotResponding – Para execuções que têm Pulsações habilitadas, nenhuma pulsação foi enviada recentemente.

Retornos

Status do trabalho.

Tipo de retorno

studio_url

Ponto de extremidade do Estúdio do Azure ML.

Retornos

A URL para a página de detalhes do trabalho.

Tipo de retorno

task_type

Obter tipo de tarefa.

Retornos

O tipo de tarefa a ser executado. Os valores possíveis incluem: "classificação", "regressão", "previsão".

Tipo de retorno

str

test_data

Obter dados de teste.

Retornos

Testar entrada de dados

Tipo de retorno

training

Configurações de treinamento para o trabalho de classificação de AutoML.

Retornos

Configurações de treinamento usadas para o Trabalho de Classificação de AutoML.

Tipo de retorno

<xref:ClassificationTrainingSettings>

training_data

Obter dados de treinamento.

Retornos

Entrada de dados de treinamento

Tipo de retorno

type

O tipo do trabalho.

Retornos

O tipo do trabalho.

Tipo de retorno

validation_data

Obter dados de validação.

Retornos

Entrada de dados de validação

Tipo de retorno