Utforska analysdatalager
Det finns två vanliga typer av analysdatalager.
Informationslager
Ett informationslager är en relationsdatabas där data lagras i ett schema som är optimerat för dataanalys i stället för transaktionsarbetsbelastningar. Vanligtvis omvandlas data från ett transaktionslager till ett schema där numeriska värden lagras i centrala faktatabeller , som är relaterade till en eller flera dimensionstabeller som representerar entiteter med vilka data kan aggregeras. En faktatabell kan till exempel innehålla försäljningsorderdata som kan aggregeras efter kund-, produkt-, butiks- och tidsdimensioner (så att du till exempel enkelt kan hitta månatliga totala försäljningsintäkter per produkt för varje butik). Den här typen av fakta- och dimensionstabellschema kallas för ett stjärnschema, men det utökas ofta till ett snowflake-schema genom att lägga till ytterligare tabeller relaterade till dimensionstabellerna för att representera dimensionshierarkier (till exempel kan produkten vara relaterad till produktkategorier). Ett informationslager är ett bra val när du har transaktionsdata som kan ordnas i ett strukturerat schema med tabeller och du vill använda SQL för att fråga dem.
Data Lake-sjöar
En datasjö är ett fillager, vanligtvis på ett distribuerat filsystem för dataåtkomst med höga prestanda. Tekniker som Spark eller Hadoop används ofta för att bearbeta frågor på de lagrade filerna och returnera data för rapportering och analys. Dessa system använder ofta en schema-on-read-metod för att definiera tabellscheman på halvstrukturerade datafiler vid den punkt där data läse för analys, utan att tillämpa begränsningar när de lagras. Datasjöar är bra för att stödja en blandning av strukturerade, halvstrukturerade och till och med ostrukturerade data som du vill analysera utan behov av schemaframtvingande när data skrivs till lagret.
Hybridmetoder
Du kan använda en hybridmetod som kombinerar funktioner i datasjöar och informationslager i ett datasjöhus. Rådata lagras som filer i en datasjö och Microsoft Fabric SQL-analysslutpunkter exponerar dem som tabeller, som kan efterfrågas med SQL. När du skapar ett Lakehouse med Microsoft Fabric skapas automatiskt en SQL-analysslutpunkt. Data lakehouses är en relativt ny metod i Spark-baserade system och aktiveras via tekniker som Delta Lake, som lägger till relationslagringsfunktioner i Spark, så att du kan definiera tabeller som tillämpar scheman och transaktionskonsekvens, stöder batchinlästa och strömmande datakällor och tillhandahåller ett SQL API för frågor.
Azure-tjänster för analysarkiv
I Azure finns det flera tjänster som du kan använda för att implementera ett storskaligt analysarkiv, bland annat:
Microsoft Fabric är en enhetlig lösning från slutpunkt till slutpunkt för storskalig dataanalys. Den sammanför flera tekniker och funktioner så att du kan kombinera dataintegriteten och tillförlitligheten i ett skalbart, högpresterande SQL Server-baserat relationsdatalager med flexibiliteten i en datasjö och Apache Spark med öppen källkod. Den innehåller även inbyggt stöd för logg- och telemetrianalys med Microsoft Fabric Realtidsinformation, samt inbyggda datapipelines för datainmatning och transformering. Varje Microsoft Fabric-produktupplevelse har ett eget hem, till exempel Data Factory Home. Varje Fabric Home visar de objekt som du skapar och har behörighet att använda från alla arbetsytor som du har åtkomst till. Microsoft Fabric är ett bra val när du vill skapa en enda, enhetlig analyslösning.
Azure Databricks är en Azure-implementering av den populära Databricks-plattformen. Databricks är en omfattande dataanalyslösning som bygger på Apache Spark och erbjuder inbyggda SQL-funktioner samt arbetsbelastningsoptimerade Spark-kluster för dataanalys och datavetenskap. Databricks tillhandahåller ett interaktivt användargränssnitt genom vilket systemet kan hanteras och data kan utforskas i interaktiva notebook-filer. På grund av dess vanliga användning på flera molnplattformar kan du överväga att använda Azure Databricks som analysarkiv om du vill använda befintlig expertis med plattformen eller om du behöver arbeta i en miljö med flera moln eller stödja en molnbaserad bärbar lösning.
Kommentar
Var och en av dessa tjänster kan betraktas som ett analysdatalager, i den meningen att de tillhandahåller ett schema och gränssnitt genom vilket data kan efterfrågas. I många fall lagras dock data faktiskt i en datasjö och tjänsten används för att bearbeta data och köra frågor. Vissa lösningar kan till och med kombinera användningen av dessa tjänster. En inmatningsprocess för extrahering, inläsning och transformering (ELT) kan kopiera data till datasjön och sedan använda en av dessa tjänster för att transformera data och en annan för att köra frågor mot dem. En pipeline kan till exempel använda en notebook-fil som körs i Azure Databricks för att bearbeta en stor mängd data i datasjön och sedan läsa in den i tabeller i ett Microsoft Fabric Warehouse.