Beskriva datalagerarkitektur
Arkitekturen för storskalig dataanalys kan variera, liksom de specifika tekniker som används för att implementera den. men i allmänhet ingår följande element:
- Datainmatning och bearbetning – data från ett eller flera transaktionsdatalager, filer, realtidsströmmar eller andra källor läses in i en datasjö eller ett relationsdatalager. Belastningsåtgärden omfattar vanligtvis en ETL-process (extract, transform, and load ) eller extract, load och transform (ELT) där data rensas, filtreras och omstruktureras för analys. I ETL-processer transformeras data innan de läses in i ett analyslager, medan data i en ELT-process kopieras till lagret och sedan transformeras. Hur som helst är den resulterande datastrukturen optimerad för analysfrågor. Databearbetningen utförs ofta av distribuerade system som kan bearbeta stora mängder data parallellt med hjälp av kluster med flera noder. Datainmatning omfattar både batchbearbetning av statiska data och realtidsbearbetning av strömmande data.
- Analysdatalager – datalager för storskalig analys omfattar relationsdatalager, filsystembaserade datasjöar och hybridarkitekturer som kombinerar funktioner i informationslager och datasjöar (kallas ibland datasjöhus eller sjödatabaser). Vi diskuterar dessa mer ingående senare.
- Analysdatamodell – även om dataanalytiker och dataforskare kan arbeta med data direkt i analysdatalagret är det vanligt att skapa en eller flera datamodeller som föraggregerar data för att göra det enklare att skapa rapporter, instrumentpaneler och interaktiva visualiseringar. Ofta beskrivs dessa datamodeller som kuber, där numeriska datavärden aggregeras över en eller flera dimensioner (till exempel för att fastställa total försäljning per produkt och region). Modellen kapslar in relationerna mellan datavärden och dimensionella entiteter för att stödja analys av ökad detaljnivå/detaljnivå.
- Datavisualisering – dataanalytiker använder data från analysmodeller och direkt från analyslager för att skapa rapporter, instrumentpaneler och andra visualiseringar. Dessutom kan användare i en organisation som kanske inte är teknikproffs utföra dataanalys och rapportering med självbetjäning. Visualiseringarna från data visar trender, jämförelser och nyckeltal (KPI:er) för ett företag eller en annan organisation, och kan ha formen av tryckta rapporter, grafer och diagram i dokument eller PowerPoint-presentationer, webbaserade instrumentpaneler och interaktiva miljöer där användarna kan utforska data visuellt.