Guia de início rápido: criar um modelo de classificação de imagem com o portal Visão Personalizada

Artigo
10/16/2024

Este guia de início rápido explica como usar o portal da Web Visão Personalizada para criar um modelo de classificação de imagem. Depois de construir um modelo, você pode testá-lo com novas imagens e, eventualmente, integrá-lo em seu próprio aplicativo de reconhecimento de imagem.

Pré-requisitos

Uma subscrição do Azure. Você pode criar uma conta gratuita.
Um conjunto de imagens para treinar seu modelo de classificação. Você pode usar o conjunto de imagens de exemplo no GitHub. Ou, você pode escolher suas próprias imagens usando as seguintes dicas.
Um navegador da Web compatível.

Criar recursos de Visão Personalizada

Para usar o serviço de Visão Personalizada, você precisa criar recursos de treinamento e previsão de Visão Personalizada no Azure. No portal do Azure, use a página Criar Visão Personalizada para criar um recurso de treinamento e um recurso de previsão.

Criar um novo projeto

Navegue até à página Web Visão Personalizada e, em seguida, inicie sessão com a mesma conta que utilizou para iniciar sessão no portal do Azure.

Captura de ecrã a mostrar a página de início de sessão.

Para criar seu primeiro projeto, selecione Novo projeto. A caixa de diálogo Criar novo projeto é exibida.
Insira um nome e uma descrição para o projeto. Em seguida, selecione seu recurso de treinamento de visão personalizada. Se sua conta conectada estiver associada a uma conta do Azure, a lista suspensa Recurso exibirá todos os seus recursos compatíveis do Azure.

Nota

Se nenhum recurso estiver disponível, confirme que você entrou no customvision.ai com a mesma conta que usou para entrar no portal do Azure. Além disso, confirme que selecionou o mesmo Diretório no site da Visão Personalizada que o diretório no portal do Azure onde seus recursos da Visão Personalizada estão localizados. Em ambos os sites, você pode selecionar seu diretório no menu suspenso da conta no canto superior direito da tela.
Selecione Classificação em Tipos de projeto. Em seguida, em Tipos de classificação, escolha Multilabel ou Multiclass, dependendo do seu caso de uso. A classificação multilabel aplica qualquer número de suas tags a uma imagem (zero ou mais), enquanto a classificação multiclasse classifica as imagens em categorias únicas (cada imagem enviada é classificada na tag mais provável). Você pode alterar o tipo de classificação mais tarde, se desejar.

Em seguida, selecione um dos domínios disponíveis. Cada domínio otimiza o modelo para tipos específicos de imagens, conforme descrito na tabela a seguir. Você pode alterar o domínio mais tarde, se desejar.

Domínio	Propósito
Genéricos	Otimizado para uma ampla gama de tarefas de classificação de imagens. Se nenhum dos outros domínios for apropriado ou se você não tiver certeza de qual domínio escolher, selecione o domínio Genérico.
Alimentação	Otimizado para fotografias de pratos como você os veria em um menu de restaurante. Se quiser classificar fotografias de frutas ou vegetais individuais, use o domínio Alimentos.
Lugares de destaque	Otimizado para pontos de referência reconhecíveis, tanto naturais como artificiais. Este domínio funciona melhor quando o marco é claramente visível na fotografia. Este domínio funciona mesmo que o marco esteja ligeiramente obstruído por pessoas à sua frente.
Retail	Otimizado para imagens encontradas em um catálogo de compras ou site de compras. Se você quer classificação de alta precisão entre vestidos, calças e camisas, use este domínio.
Domínios compactos	Otimizado para as restrições de classificação em tempo real em dispositivos móveis. Os modelos gerados por domínios compactos podem ser exportados para serem executados localmente.

Por fim, selecione Criar projeto.

Escolha imagens de treinamento

No mínimo, você deve usar pelo menos 30 imagens por tag no conjunto de treinamento inicial. Você também deve coletar algumas imagens extras para testar seu modelo depois que ele for treinado.

Para treinar o seu modelo de forma eficaz, use imagens com variedade visual. Selecione imagens que variam por:

ângulo da câmara
iluminação
Contexto geral
estilo visual
sujeito(s) individual(ais/agrupado(s)
size
tipo

Além disso, certifique-se de que todas as suas imagens de treinamento atendam aos seguintes critérios:

deve ser .jpg, .png, .bmp ou formato .gif
não superior a 6 MB de tamanho (4 MB para imagens de previsão)
não menos de 256 pixels na borda mais curta; todas as imagens com menos de 256 pixels são automaticamente dimensionadas pelo serviço Visão Personalizada

Carregar e etiquetar imagens

Você pode carregar e marcar imagens manualmente para ajudar a treinar o classificador.

Para adicionar imagens, selecione Adicionar imagens e, em seguida, selecione Procurar ficheiros locais. Selecione Abrir para passar para a marcação. A sua seleção de etiquetas é aplicada a todo o grupo de imagens que carrega, pelo que é mais fácil carregar imagens em grupos separados de acordo com as respetivas etiquetas aplicadas. Também pode alterar as etiquetas de imagens individuais depois de serem carregadas.
Para criar uma etiqueta, introduza texto no campo As minhas etiquetas e prima Enter. Se a tag já existir, ela aparecerá em um menu suspenso. Em um projeto multilabel, você pode adicionar mais de uma tag às suas imagens, mas em um projeto multiclasse você pode adicionar apenas uma. Para concluir o upload das imagens, use o botão Carregar [número] arquivos .
Selecione Concluído assim que as imagens forem carregadas.

Para carregar outro conjunto de imagens, volte ao topo desta secção e repita os passos.

Preparar o classificador

Para treinar o classificador, selecione o botão Trem . O classificador usa todas as imagens atuais para criar um modelo que identifica as qualidades visuais de cada tag. Este processo pode demorar vários minutos.

Captura de ecrã do botão de comboio no canto superior direito da barra de ferramentas de cabeçalho da página Web.

O processo de treinamento deve levar apenas alguns minutos. Durante esse período, as informações sobre o processo de treinamento são exibidas na guia Desempenho .

Captura de tela da janela do navegador com detalhes de treinamento na seção principal.

Avaliar o classificador

Após a conclusão do treinamento, o desempenho do modelo é estimado e exibido. O Serviço de Visão Personalizada usa as imagens enviadas para treinamento para calcular a precisão e a recuperação. Precisão e recall são duas medidas diferentes da eficácia de um classificador:

A precisão indica a fração de classificações identificadas que estavam corretas. Por exemplo, se o modelo identificasse 100 imagens como cães, e 99 delas fossem realmente de cães, então a precisão seria de 99%.
Recall indica a fração de classificações reais que foram corretamente identificadas. Por exemplo, se houvesse realmente 100 imagens de maçãs, e o modelo identificasse 80 como maçãs, o recall seria de 80%.

Captura de tela dos resultados do treinamento mostrando a precisão geral e a recordação, bem como a precisão e a recuperação de cada tag no classificador.

Limiar de probabilidade

Observe o controle deslizante Limiar de Probabilidade no painel esquerdo da guia Desempenho . Este é o nível de confiança que uma previsão precisa ter para ser considerada correta (para fins de precisão de cálculo e recordação).

Quando você interpreta chamadas de previsão com um limite de alta probabilidade, elas tendem a retornar resultados com alta precisão às custas da recuperação — as classificações detetadas estão corretas, mas muitas permanecem não detetadas. Um limiar de baixa probabilidade faz o oposto – a maioria das classificações reais são detetadas, mas há mais falsos positivos dentro desse conjunto. Com isso em mente, você deve definir o limite de probabilidade de acordo com as necessidades específicas do seu projeto. Mais tarde, quando você estiver recebendo resultados de previsão no lado do cliente, você deve usar o mesmo valor de limite de probabilidade que você usou aqui.

Gerenciar iterações de treinamento

Cada vez que você treina seu classificador, você cria uma nova iteração com métricas de desempenho atualizadas. Você pode exibir todas as suas iterações no painel esquerdo da guia Desempenho . Você também encontrará o botão Excluir , que pode ser usado para excluir uma iteração se ela estiver obsoleta. Ao excluir uma iteração, você exclui todas as imagens associadas exclusivamente a ela.

Para saber como acessar seus modelos treinados programaticamente, consulte Chamar a API de previsão.

Próximo passo

Neste guia de início rápido, você aprendeu como criar e treinar um modelo de classificação de imagem usando o portal da Web Visão Personalizada. Em seguida, obtenha mais informações sobre o processo iterativo de melhoria do seu modelo.

Test and retrain a model (Testar e voltar a preparar um modelo)

O que é Visão Personalizada?

Partilhar via