Dela via


Vad är alla Delta-saker i Azure Databricks?

Den här artikeln är en introduktion till de tekniker som är gemensamt märkta med Delta på Azure Databricks. Delta avser tekniker som är relaterade till eller i Delta Lake öppen källkod-projektet.

Den här artikeln besvarar:

  • Vilka är Delta-teknikerna i Azure Databricks?
  • Vad gör de? Eller vad används de till?
  • Hur är de relaterade till och skilda från varandra?

Vad används Delta-sakerna till?

Delta är en term som introducerades med Delta Lake, grunden för att lagra data och tables i Databricks-lakehouset. Delta Lake utformades som ett enhetligt datahanteringssystem för hantering av transaktionella realtids- och batch-stordata genom att utöka Parquet-datafiler med en filbaserad transaktionslogg för ACID-transaktioner och skalbar metadatahantering.

Delta Lake: OS-datahantering för lakehouse

Delta Lake är ett lagringslager med öppen källkod som ger tillförlitlighet till datasjöar genom att lägga till ett transaktionellt lagringslager ovanpå data som lagras i molnlagring (på AWS S3, Azure Storage och GCS). Det möjliggör ACID-transaktioner, dataversionshantering och återställningsfunktioner. Det gör att du kan hantera både batch- och strömmande data på ett enhetligt sätt.

Delta tables bygger på det här lagringslagret och ger en table abstraktion, vilket gör det enkelt att arbeta med storskaliga strukturerade data med SQL och DataFrame-API:et.

Delta tables: Standardarkitektur för data table

Delta table är standardformatet för data table i Azure Databricks och är en funktion i dataramverket med öppen källkod i Delta Lake. Delta tables används vanligtvis för datasjöar, och where data matas in antingen via strömning eller i stora omgångar.

Se:

Delta Live Tables: Datapipelines

Delta Live Tables hanterar dataflödessystemet mellan många Delta-tables, vilket förenklar datateknikernas arbete med utveckling och hantering av ETL. Rörledningen är den huvudsakliga körningsenheten för Delta Live Tables. Delta Live Tables erbjuder deklarativ pipelineutveckling, förbättrad datatillförlitlighet och produktionsåtgärder i molnskala. Användare kan utföra både batch- och strömningsåtgärder på samma table och data är omedelbart tillgängliga för frågor. Du definierar de omvandlingar som ska utföras på dina data och Delta Live Tables hanterar uppgiftsorkestrering, klusterhantering, övervakning, datakvalitet och felhantering. Delta Live Tables förbättrad autoskalning kan hantera strömningsbelastningar som är ojämna och oförutsägbara.

Se självstudien Delta Live Tables.

Delta tables mot Delta Live Tables

Delta table är ett sätt att lagra data i tables, medan Delta Live Tables låter dig beskriva hur data flödar mellan dessa tables deklarativt. Delta Live Tables är ett deklarativt ramverk som hanterar många delta tablesgenom att skapa dem och hålla dem uppdaterade. Kort och kort är Delta tables en arkitektur för data table medan Delta Live Tables är ett ramverk för datapipeline.

Delta: Öppen källkod eller upphovsrättsskyddad?

En styrka med Azure Databricks-plattformen är att den inte låser kunderna till proprietära verktyg: Mycket av tekniken drivs av öppen källkod projekt som Azure Databricks bidrar till.

Delta OSS-projekten är exempel:

Delta Live Tables är ett patentskyddat ramverk i Azure Databricks.

Vad är de andra Delta-sakerna i Azure Databricks?

Nedan visas beskrivningar av andra funktioner som innehåller Delta i deras namn.

Deltadelning

Deltadelning är en öppen standard för säker datadelning och möjliggör datadelning mellan organisationer oavsett beräkningsplattform.

Deltamotor

En frågeoptimerare för stordata som använder Delta Lake öppen källkod teknik som ingår i Databricks. Deltamotorn optimerar prestandan för Spark SQL-, Databricks SQL- och DataFrame-åtgärder genom att push-överföra beräkningen till data.

Delta Lake-transaktionslogg (AKA DeltaLogs)

En enda källa till sanning som spårar alla ändringar som användarna gör i table och mekanismen genom vilken Delta Lake garanterar atomicitet. Se deltatransaktionsloggprotokollet på GitHub.

Transaktionsloggen är nyckeln till att förstå Delta Lake, eftersom det är den röda tråden som går igenom många av dess viktigaste funktioner:

  • ACID-transaktioner
  • Skalbar metadatahantering
  • Tidsresa
  • Och mer.