Introdução
A maneira como treinamos os modelos não é, de forma alguma, um processo perfeitamente automatizado. A dependência excessiva dos dados no treinamento pode levá-lo a aprender coisas que acabam não sendo úteis, ou a não aprender com eficiência as coisas que, de fato, são úteis. O material de aprendizagem a seguir apresenta algumas razões simples pelas quais subajustes e sobreajustes ocorrem, e o que você pode fazer a esse respeito.
Cenário: treinamento de cães de resgate em avalanche
Ao longo deste módulo, usaremos o cenário de exemplo a seguir para explicar subajuste e sobreajuste. Este cenário foi projetado para fornecer um exemplo de como você pode atender a esses conceitos ao programar por conta própria. Tenha em mente que esses princípios geralmente se aplicam a quase todos os tipos de modelos, não apenas àqueles com os quais trabalhamos aqui.
É hora de sua instituição beneficente treinar uma nova geração de cachorros para encontrar montanhistas soterrados por avalanches. Há uma discussão no escritório sobre quais cães são melhores: cachorros grandes são melhores do que cachorros pequenos? Os cachorros devem ser treinados quando jovens ou quando estiverem mais maduros? Felizmente, você tem estatísticas sobre as recuperações realizadas nos últimos anos que você pode consultar. Mas o treinamento de cachorros é caro, e você precisa ter certeza de que usa critérios sólidos na escolha dos cachorros.
Pré-requisitos
- Familiaridade com modelos de machine learning
Objetivos de aprendizagem
Neste módulo, você vai:
- Defina a normalização de recursos.
- Crie e trabalhe com conjuntos de dados de teste.
- Ressalte como os modelos de teste podem melhorar ou prejudicar o treinamento.