Glossário de aprendizado de máquina de termos importantes
A lista a seguir é uma compilação de termos importantes de machine learning que são úteis à medida que você cria seus modelos personalizados em ML.NET.
Exatidão
Em de classificação, a precisão é o número de itens classificados corretamente divididos pelo número total de itens no conjunto de testes. Varia de 0 (menos preciso) a 1 (mais preciso). A precisão é uma das métricas de avaliação do desempenho do modelo. Considere-o em conjunto comde precisão
Área sob a curva (AUC)
Em classificação binária, uma métrica de avaliação que é o valor da área sob a curva que plota a taxa de verdadeiros positivos (no eixo y) em relação à taxa de falsos positivos (no eixo x). Varia de 0,5 (pior) a 1 (melhor). Também conhecida como a área sob a curva ROC, ou seja, curva característica de operação do receptor. Para obter mais informações, consulte a característica operacional do receptor artigo sobre a Wikipédia.
Classificação binária
Uma classificação caso em que o rótulo é apenas uma de duas classes. Para obter mais informações, consulte a seção
Calibração
A calibragem é o processo de mapeamento de uma pontuação bruta em uma associação de classe, para classificação binária e multiclasse. Alguns treinadores ML.NET têm um sufixo NonCalibrated
. Esses algoritmos produzem uma pontuação bruta que, em seguida, deve ser mapeada para uma probabilidade de classe.
Catálogo
Em ML.NET, um catálogo é uma coleção de funções de extensão, agrupadas por uma finalidade comum.
Por exemplo, cada tarefa de machine learning (classificação binária, regressão, classificação etc) tem um catálogo de algoritmos de machine learning disponíveis (treinadores). O catálogo dos treinadores de classificação binária é: BinaryClassificationCatalog.BinaryClassificationTrainers.
Classificação
Quando os dados são usados para prever uma categoria, tarefa de machine learning supervisionada é chamada de classificação. classificação binária refere-se à previsão de apenas duas categorias (por exemplo, classificar uma imagem como uma imagem de um 'gato' ou um 'cão'). classificação multiclasse refere-se à previsão de várias categorias (por exemplo, ao classificar uma imagem como uma imagem de uma raça específica de cachorro).
Coeficiente de determinação
Em de regressão, uma métrica de avaliação que indica como os dados se ajustam bem a um modelo. Varia de 0 a 1. Um valor de 0 significa que os dados são aleatórios ou não podem ser adequados ao modelo. Um valor de 1 significa que o modelo corresponde exatamente aos dados. Isso geralmente é conhecido como r2, R2ou r-squared.
Dados
Os dados são centrais para qualquer aplicativo de machine learning. Em ML.NET dados é representado por objetos IDataView. Objetos de exibição de dados:
- são compostas por colunas e linhas
- são avaliados de forma preguiçosa, ou seja, eles só carregam dados quando uma operação o chama
- contém um esquema que define o tipo, o formato e o comprimento de cada coluna
Estimador
Uma classe em ML.NET que implementa a interface IEstimator<TTransformer>.
Um avaliador é uma especificação de uma transformação (transformação de preparação de dados e transformação de treinamento de modelo de machine learning). Os estimadores podem ser encadeados em um pipeline de transformações. Os parâmetros de um avaliador ou pipeline de estimativas são aprendidos quando Fit é chamado. O resultado de
Método de extensão
Um método .NET que faz parte de uma classe, mas é definido fora da classe. O primeiro parâmetro de um método de extensão é uma referência this
estática à classe à qual o método de extensão pertence.
Os métodos de extensão são usados extensivamente em ML.NET para construir instâncias de avaliadores.
Característica
Uma propriedade mensurável do fenômeno que está sendo medido, normalmente um valor numérico (duplo). Vários recursos são chamados de de vetor de recurso e normalmente armazenados como double[]
. Os recursos definem as características importantes do fenômeno que está sendo medido. Para obter mais informações, consulte o artigo Feature na Wikipédia.
Engenharia de recursos
A engenharia de recursos é o processo que envolve a definição de um conjunto de recursos e desenvolvimento de software que produz vetores de recursos de dados de fenômeno disponíveis, ou seja, extração de recursos. Para obter mais informações, consulte o artigo de engenharia de recursos
Pontuação F
Em de classificação, uma métrica de avaliação que equilibra de precisão e de recall.
Hiperparâmetro
Um parâmetro de um algoritmo de machine learning. Exemplos incluem o número de árvores a serem aprendedas em uma floresta de decisão ou o tamanho da etapa em um algoritmo de descida de gradiente. Os valores de Hiperparâmetros são definidos antes de treinar o modelo e regem o processo de localização dos parâmetros da função de previsão, por exemplo, os pontos de comparação em uma árvore de decisão ou os pesos em um modelo de regressão linear. Para obter mais informações, consulte o artigo Hyperparameter na Wikipédia.
Etiqueta
O elemento a ser previsto com o modelo de machine learning. Por exemplo, a raça de cachorro ou um preço futuro das ações.
Perda de log
Em de classificação, uma métrica de avaliação que caracteriza a precisão de um classificador. Quanto menor for a perda de log, mais preciso será um classificador.
Função de perda
Uma função de perda é a diferença entre os valores do rótulo de treinamento e a previsão feita pelo modelo. Os parâmetros do modelo são estimados minimizando a função de perda.
Diferentes treinadores podem ser configurados com diferentes funções de perda.
Erro absoluto médio (MAE)
Em de regressão, uma métrica de avaliação que é a média de todos os erros de modelo, em que o erro de modelo é a distância entre o rótulo previsto valor e o valor correto do rótulo.
Modelo
Tradicionalmente, os parâmetros para a função de previsão. Por exemplo, os pesos em um modelo de regressão linear ou os pontos de divisão em uma árvore de decisão. Em ML.NET, um modelo contém todas as informações necessárias para prever o rótulo de um objeto de domínio (por exemplo, imagem ou texto). Isso significa que ML.NET modelos incluem as etapas de featurization necessárias, bem como os parâmetros para a função de previsão.
Classificação multiclasse
Uma classificação caso em que o rótulo é uma em cada três ou mais classes. Para obter mais informações, consulte a seção de classificação multiclasse do
N-grama
Um esquema de extração de recursos para dados de texto: qualquer sequência de N palavras se transforma em um recurso valor.
Normalização
Normalização é o processo de dimensionamento de dados de ponto flutuante para valores entre 0 e 1. Muitos dos algoritmos de treinamento usados em ML.NET exigem que os dados do recurso de entrada sejam normalizados. ML.NET fornece uma série de transformações para de normalização
Vetor de recurso numérico
Um recurso vetor que consiste apenas em valores numéricos. Isso é semelhante ao double[]
.
Pipeline
Todas as operações necessárias para ajustar um modelo a um conjunto de dados. Um pipeline consiste em etapas de importação, transformação, apresentação e aprendizado de dados. Depois que um pipeline é treinado, ele se transforma em um modelo.
Precisão
Em de classificação, a precisão de uma classe é o número de itens corretamente previstos como pertencentes a essa classe dividido pelo número total de itens previstos como pertencentes à classe.
Lembrar
Em classificação, o recall de uma classe é o número de itens corretamente previstos como pertencentes a essa classe dividido pelo número total de itens que realmente pertencem à classe.
Regularização
A regularização penaliza um modelo linear por ser muito complicado. Há dois tipos de regularização:
- $L_1$ a regularização zeros pesos para recursos insignificantes. O tamanho do modelo salvo pode ficar menor após esse tipo de regularização.
- A regularização $L_2$ minimiza o intervalo de peso para recursos insignificantes. Esse é um processo mais geral e é menos sensível a exceções.
Regressão
Uma tarefa de aprendizado de máquina supervisionado em que a saída é um valor real, por exemplo, duplo. Exemplos incluem a previsão dos preços das ações. Para obter mais informações, consulte a seção Regressão do tópico Machine Learning tópico.
Erro absoluto relativo
Em de regressão, uma métrica de avaliação que é a soma de todos os erros absolutos divididos pela soma das distâncias entre os valores corretos rótulo e a média de todos os valores de rótulo corretos.
Erro relativo ao quadrado
Em de regressão, uma métrica de avaliação que é a soma de todos os erros absolutos quadrados divididos pela soma de distâncias quadradas entre os valores corretos rótulo e a média de todos os valores de rótulo corretos.
Raiz do erro quadrado médio (RMSE)
Em de regressão, uma métrica de avaliação que é a raiz quadrada da média dos quadrados dos erros.
Marcar
Pontuação é o processo de aplicação de novos dados a um modelo de machine learning treinado e geração de previsões. A pontuação também é conhecida como inferência. Dependendo do tipo de modelo, a pontuação pode ser um valor bruto, uma probabilidade ou uma categoria.
Aprendizado de máquina supervisionado
Uma subclasse de machine learning na qual um modelo desejado prevê o rótulo para dados ainda não vistos. Exemplos incluem classificação, regressão e previsão estruturada. Para obter mais informações, consulte o artigo de aprendizagem supervisionada
Formação
O processo de identificação de um modelo de para um determinado conjunto de dados de treinamento. Para um modelo linear, isso significa encontrar os pesos. Para uma árvore, envolve a identificação dos pontos de divisão.
Transformador
Uma classe ML.NET que implementa a interface ITransformer.
Um transformador transforma um IDataView em outro. Um transformador é criado treinando um avaliador ou um pipeline de avaliador.
Aprendizado de máquina não supervisionado
Uma subclasse de machine learning na qual um modelo desejado encontra estrutura oculta (ou latente) nos dados. Exemplos incluem clustering, modelagem de tópico e redução de dimensionalidade. Para obter mais informações, consulte o artigo de de aprendizagem não supervisionado na Wikipédia.