Reconhecer os conjuntos de dados

Artigo
09/03/2024

Os modelos de machine learning "aprendem" com decisões históricas e ações capturadas em dados de treinamento. Como resultado, seu desempenho em cenários reais é fortemente influenciado pelos dados em que eles são treinados. Quando a distribuição de recursos em um conjunto de dados está distorcida, isso pode fazer com que um modelo preveja incorretamente que pontos de dados pertencem a um grupo sub-representado ou a otimização deles ao longo de uma métrica inadequada.

Por exemplo, enquanto um modelo estava treinando um sistema de IA para prever os preços das casas, o conjunto de treinamento representava 75% das casas mais recentes que tinham preços menores que o valor mediano. Como resultado, ele foi muito menos preciso na identificação de casas históricas mais caras. Para consertar isso, foi necessário adicionar casas mais antigas e caras aos dados de treinamento e aumentar os recursos para incluir insights sobre o valor histórico. Esse aumento de dados melhorou os resultados.

O componente de análise de dados do dashboard de IA responsável ajuda a visualizar conjuntos de dados com base em resultados previstos e reais, grupos de erros e recursos específicos. Isso ajuda você a identificar problemas de excesso e falta de representação e ver como os dados são clusterizados no conjunto de dados. As visualizações de dados consistem em gráficos de agregação ou pontos de dados individuais.

Quando usar a análise de dados

Use a análise de dados quando precisar:

Explorar as estatísticas do conjunto de dados selecionando filtros diferentes para dividir seus dados em dimensões diferentes (também conhecidas como coortes).
Entender a distribuição do conjunto de dados em diferentes coortes e grupos de recursos.
Determinar se as suas descobertas relacionadas à imparcialidade, análise de erro e causalidade (derivadas de outros componentes do dashboard) são resultado da distribuição do conjunto de dados.
Decidir em quais áreas coletar mais dados para atenuar erros decorrentes de problemas de representação, ruído de rótulo, ruído de recurso, desvio de rótulo e fatores semelhantes.

Próximas etapas

Saiba como gerar o Painel de IA responsável por meio da CLI e do SDK ou da interface do usuário do Estúdio do Azure Machine Learning.
Explorar as visualizações de análise de dados com suporte do painel de IA Responsável.
Saiba como gerar um scorecard de IA responsável com base nos insights observados no dashboard de IA responsável.

Compartilhar via

Reconhecer os conjuntos de dados

Quando usar a análise de dados

Próximas etapas

Comentários

Recursos adicionais