Descrição geral da Análise de Causa Raiz
A análise de causa raiz (RCA) permite encontrar ligações ocultas nos seus dados. Por exemplo, ajuda-o a compreender porque é que alguns casos demoraram mais tempo a concluir do que outros, ou porque é que alguns casos ficam bloqueados em reformulações enquanto outros são executados sem problemas. A RCA mostrará as diferenças chave entre estes casos.
Dados necessários
A RCA pode utilizar todos os seus atributos, métricas e métricas personalizadas ao nível do caso para encontrar ligações entre eles e uma métrica à sua escolha.
O melhor exemplo é incluir todos os dados que pode como um atributo ao nível do caso e permitir que a RCA escolha qual o atributo que realmente influencia a métrica e qual não.
Como funciona a RCA?
O algoritmo da RCA calculará uma estrutura de árvore em que cada nó dividirá o conjunto de dados em duas partes mais pequenas. Isto baseia-se numa variável onde encontra a melhor correlação entre a divisão da variável e a métrica de destino. A partir daqui, pode ver as ligações ocultas nos dados. É aqui que irá dizer-lhe qual a combinação de atributos que irá influenciar o caso e de que forma.
Como a RCA encontra a melhor divisão
Primeiro, geramos centenas a milhares de combinações de possíveis divisões. Em seguida, tentamos que cada divisão descubra o sucesso com que irá dividir o conjunto de dados em duas partes. Calculamos a variância da métrica principal em cada parte da divisão e calculamos a classificação para cada divisão com o seguinte cálculo:
scoresplit_x = variâncialeft * número de casosleft + variânciaright * número de casosright
Em seguida, ordenamos todas as divisões por esta pontuação e as melhores divisões são are obtidos desde o início, com a pontuação mais baixa. Para a métrica principal categórica (cadeia), calculamos a impureza de Geni da variância.
Exemplo de RCA
Neste exemplo, queremos ver a causa raiz subjacente à duração do caso. Nos dados, temos atributos ao nível do caso país/região fornecedor, localidade fornecedora, material, montante total e centro de custos. A duração média dos casos é de 46 horas.
Ao observar cada valor de cada atributo separadamente, podemos ver que o maior influenciador da duração do caso é quando localidade do fornecedor é Graz, que em média aumenta a duração do caso em 15 horas adicionais. A partir desta análise inicial, podemos ver que os outros valores dos atributos influenciam muito menos a métrica alvo. No entanto, quando calcularmos o modelo de árvore, podemos ver que a computação acima é enganadora (como na captura de ecrã seguinte).
A estrutura de árvore tem o aspeto seguinte:
A primeira divisão são os dados ao longo da variável material. Os dados com alumínio estão num lado e todos os outros materiais estão no outro lado.
O ramo alumínio é dividido ainda mais por país/região fornecedor em Alemanha e Áustria.
O ramo Áustria continua com uma divisão por localidade fornecedora, com Graz num lado e Viena do outro.
No nó Graz, o caso médio foi 36 horas mais lento do que a duração média global de 46 horas.
Na mesma árvore, podemos ver que, se tivermos outro material além de alumínio, também divide a variável localidade fornecedora, em que um lado é Graz e o outro é Viena, Munique ou Frankfurt. Porém, aqui, os valores são o oposto. Graz tem estatísticas muito melhores do que Viena ou qualquer cidade alemã, com o caso médio em Graz a ser 15 horas mais rápido do que a média global de todos os casos.
A partir daqui, podemos ver que as estatísticas iniciais são enganadoras porque Graz está a ter um mau desempenho quando o material é alumínio. No entanto, está com um desempenho acima da média quando o material é diferente de alumínio e é totalmente oposto ao de outras localidades.
As estatísticas da Influência de Duração do Caso têm em conta apenas um valor e, por vezes, pode ser enganador. A RCA tem em consideração as respetivas combinações para lhe dar mais informações sobre o seu processo.