Panoramica dell'analisi della causa radice
L'analisi della causa radice (RCA) consente di trovare connessioni nascoste nei tuoi dati. Ad esempio, ti aiuta a capire perché alcuni casi richiedono più tempo per essere completati rispetto ad altri o perché alcuni casi si bloccano nelle rielaborazioni mentre altri funzionano senza problemi. La RCA ti mostrerà le principali differenze tra questi casi.
Dati obbligatori
La RCA può utilizzare tutti gli attributi, le metriche e le metriche personalizzate a livello di caso per trovare connessioni tra di loro e una metrica di tua scelta.
Il miglior esempio è includere tutti i dati che puoi come attributo a livello di caso e lasciare che la RCA scelga quale attributo influenza effettivamente la metrica e quale no.
Funzionamento di RCA
L'algoritmo RCA calcolerà una struttura ad albero in cui ogni nodo dividerà il set di dati in due parti più piccole. Questo si basa su una variabile in cui trova la migliore correlazione tra la suddivisione della variabile e la metrica di destinazione. Da questo, puoi vedere le connessioni nascoste nei dati. Qui è dove ti dirà quale combinazione di attributi influenzerà il caso in che modo.
Come la RCA trova la migliore suddivisione
Innanzitutto, generiamo da centinaia a migliaia di combinazioni di possibili suddivisioni. Quindi proviamo ogni divisione per scoprire quanto bene dividerà effettivamente il set di dati in due parti. Calcoliamo la varianza della metrica principale in ogni parte della divisione e calcoliamo il punteggio per ogni divisione con il seguente calcolo:
scoresplit_x = varianceleft * number of casesleft + varianceright * number of casesright
Quindi, ordiniamo tutte le suddivisioni in base a questo punteggio e le suddivisioni migliori vengono prese dall'inizio, con il punteggio più basso. Per la metrica principale categorica (stringa), calcoliamo l'impurità di Gini invece della varianza.
Esempio di RCA
In questo esempio, vogliamo vedere la causa radice dietro la durata del caso. Nei dati, abbiamo attributi a livello di caso paese fornitore, città fornitore, materiale,importo totale e centro di costo. La durata media del caso è di 46 ore.
Osservando ogni valore di ogni attributo separatamente, possiamo vedere che il più alto fattore di influenza della durata del caso è quando città fornitore è Graz, che in media aumenta la durata della causa di ulteriori 15 ore. Da questa analisi iniziale, possiamo vedere che gli altri valori degli attributi influenzano molto meno la metrica di destinazione. Tuttavia, quando calcoliamo il modello ad albero, possiamo vedere che il calcolo di cui sopra è fuorviante (come nello screenshot seguente).
La struttura ad albero è simile a questa:
La prima suddivisione è costituita dai dati lungo la variabile materiale. I dati con alluminio sono da un lato e tutti gli altri materiali sono dall'altro.
Il ramo alluminio è ulteriormente suddiviso per paese fornitore in Germania e Austria.
Il ramo Austria contunua con una suddivisione per città fornitore, con Graz su un lato e Vienna sull'altro.
Nel nodo Graz, il caso medio è stato di 36 ore più lento rispetto alla durata media complessiva di 46 ore.
Nello stesso albero, possiamo vedere che se abbiamo un materiale diverso dall'alluminio, viene diviso anche per la variabile città fornitore, dove da un lato è Graz e dall'altra Vienna, Monaco o Francoforte. Ma qui, i valori sono l'opposto. Graz ha statistiche molto migliori di Vienna o di qualsiasi altra città tedesca, con un caso medio a Graz che è 15 ore più veloce della media complessiva per tutti i casi.
Da questo, possiamo vedere che le statistiche iniziali sono fuorvianti perché Graz ha prestazioni scarse quando il materiale è l'alluminio, ma è superiore alla media quando il materiale è diverso dall'alluminio ed è completamente opposto per le altre città.
Influenza su durata caso prende in considerazione un solo valore e talvolta può essere fuorviante. La RCA prende in considerazione le loro combinazioni per darti maggiori informazioni sul tuo processo.