Reconhecer os conjuntos de dados
Os modelos de machine learning "aprendem" com decisões históricas e ações capturadas em dados de treinamento. Como resultado, seu desempenho em cenários reais é fortemente influenciado pelos dados em que eles são treinados. Quando a distribuição de recursos em um conjunto de dados está distorcida, isso pode fazer com que um modelo preveja incorretamente que pontos de dados pertencem a um grupo sub-representado ou a otimização deles ao longo de uma métrica inadequada.
Por exemplo, enquanto um modelo estava treinando um sistema de IA para prever os preços das casas, o conjunto de treinamento representava 75% das casas mais recentes que tinham preços menores que o valor mediano. Como resultado, ele foi muito menos preciso na identificação de casas históricas mais caras. Para consertar isso, foi necessário adicionar casas mais antigas e caras aos dados de treinamento e aumentar os recursos para incluir insights sobre o valor histórico. Esse aumento de dados melhorou os resultados.
O componente de análise de dados do dashboard de IA responsável ajuda a visualizar conjuntos de dados com base em resultados previstos e reais, grupos de erros e recursos específicos. Isso ajuda você a identificar problemas de excesso e falta de representação e ver como os dados são clusterizados no conjunto de dados. As visualizações de dados consistem em gráficos de agregação ou pontos de dados individuais.
Quando usar a análise de dados
Use a análise de dados quando precisar:
- Explorar as estatísticas do conjunto de dados selecionando filtros diferentes para dividir seus dados em dimensões diferentes (também conhecidas como coortes).
- Entender a distribuição do conjunto de dados em diferentes coortes e grupos de recursos.
- Determinar se as suas descobertas relacionadas à imparcialidade, análise de erro e causalidade (derivadas de outros componentes do dashboard) são resultado da distribuição do conjunto de dados.
- Decidir em quais áreas coletar mais dados para atenuar erros decorrentes de problemas de representação, ruído de rótulo, ruído de recurso, desvio de rótulo e fatores semelhantes.
Próximas etapas
- Saiba como gerar o Painel de IA responsável por meio da CLI e do SDK ou da interface do usuário do Estúdio do Azure Machine Learning.
- Explorar as visualizações de análise de dados com suporte do painel de IA Responsável.
- Saiba como gerar um scorecard de IA responsável com base nos insights observados no dashboard de IA responsável.