Descrivere l'architettura del data warehousing

Completato

L'architettura di analisi dei dati su larga scala può variare, così come le tecnologie specifiche usate per implementarla, ma in generale sono inclusi i seguenti elementi:

Diagramma che mostra l'inserimento e l'elaborazione dei dati, un archivio dati analitici, un modello di dati analitici e una visualizzazione dei dati.

  1. Inserimento ed elaborazione dei dati: i dati provenienti da uno o più archivi di dati transazionali, file, flussi in tempo reale o altre origini vengono caricati in un data lake o in un data warehouse relazionale. L'operazione di caricamento comporta solitamente un processo di estrazione, trasformazione e caricamento (ETL) o di estrazione, caricamento e trasformazione (ELT) in cui i dati vengono puliti, filtrati e ristrutturati per l'analisi. Nei processi ETL i dati vengono trasformati prima di essere caricati in un archivio analitico, mentre in un processo ELT i dati vengono copiati nell'archivio e quindi trasformati. In ogni caso, la struttura dei dati risultante è ottimizzata per le query analitiche. L'elaborazione dati viene spesso eseguita da sistemi distribuiti che possono elaborare elevati volumi di dati in parallelo usando cluster multinodo. L'inserimento dati comprende sia l'elaborazione batch di dati statici che l'elaborazione in tempo reale di dati in streaming.
  2. Archivio dati analitici: gli archivi dati per l'analisi su larga scala includono data warehouse relazionali, data lake basati su file system e architetture ibride che combinano le funzionalità di data warehouse e data lake (chiamati a volte data lakehouse o database Lake). Se ne parlerà più approfonditamente in seguito.
  3. Modello di dati analitici: anche se gli analisti di dati e i data scientist possono lavorare con i dati direttamente nell'archivio dati analitici, è comune creare uno o più modelli di dati che pre-aggregano i dati per facilitare la produzione di report, dashboard e visualizzazioni interattive. Spesso questi modelli di dati sono descritti come cubi, in cui i valori dei dati numerici sono aggregati su una o più dimensioni (ad esempio, per determinare le vendite totali per prodotto e area). Il modello incapsula le relazioni tra i valori dei dati e le entità dimensionali per supportare l'analisi "drill-up/drill-down".
  4. Visualizzazione dei dati: gli analisti di dati utilizzano i dati dai modelli analitici e direttamente dagli archivi analitici per creare report, dashboard e altre visualizzazioni. Inoltre, gli utenti di un'organizzazione che non sono professionisti del settore tecnologico possono eseguire analisi dei dati e creazioni di report self-service. Le visualizzazioni dei dati mostrano tendenze, confronti e indicatori di prestazioni chiave (KPI) per un'azienda o un'altra organizzazione e possono assumere la forma di report stampati, grafici e diagrammi in documenti o presentazioni di PowerPoint, dashboard basati sul Web e ambienti interattivi in cui gli utenti possono esplorare i dati visivamente.