Introduzione
Le soluzioni di analisi dei dati su larga scala combinano il data warehousing convenzionale usato per supportare la business intelligence (BI) con le tecniche usate per l'analisi dei cosiddetti "Big Data". Una soluzione di data warehouse convenzionale comporta in genere la copia dei dati dagli archivi dati transazionali a un database relazionale con uno schema ottimizzato per l'esecuzione di query e la creazione di modelli multidimensionali. Le soluzioni di elaborazione dei Big Data vengono invece usate con grandi volumi di dati in più formati, caricati in batch o acquisiti in flussi in tempo reale e archiviati in un data lake da cui vengono usati motori di elaborazione distribuiti, ad esempio Apache Spark, per elaborarli. La combinazione di Analisi SQL tramite data lake storage flessibile e data warehouse ha portato alla nascita di un design di analisi su larga scala spesso chiamato data lakehouse.