Czym jest magazynowanie danych w usłudze Azure Databricks?
Magazynowanie danych odnosi się do zbierania i przechowywania danych z wielu źródeł, dzięki czemu można je szybko uzyskać w celu uzyskania dostępu do szczegółowych informacji biznesowych i raportowania. Ten artykuł zawiera kluczowe pojęcia dotyczące tworzenia magazynu danych w usłudze Data Lakehouse.
Magazynowanie danych w usłudze Lakehouse
Architektura usługi Lakehouse i usługa Databricks SQL zapewniają możliwości magazynowania danych w chmurze w magazynach danych. Korzystając ze znanych struktur danych, relacji i narzędzi do zarządzania, można modelować wysoce wydajny, ekonomiczny magazyn danych działający bezpośrednio w usłudze Data Lake. Aby uzyskać więcej informacji, zobacz Co to jest data lakehouse?
Podobnie jak w przypadku tradycyjnego magazynu danych, modelujesz dane zgodnie z wymaganiami biznesowymi, a następnie udostępniasz je użytkownikom końcowym na potrzeby analiz i raportów. W przeciwieństwie do tradycyjnego magazynu danych można uniknąć silosowania danych analizy biznesowej lub tworzenia nadmiarowych kopii, które szybko stają się nieaktualne.
Tworzenie magazynu danych wewnątrz usługi Lakehouse umożliwia przeniesienie wszystkich danych do jednego systemu i korzystanie z funkcji, takich jak unity Catalog i usługa Delta Lake.
unity Catalog dodaje ujednolicony model zapewniania ładu, dzięki czemu można zabezpieczyć i przeprowadzić inspekcję dostępu do danych oraz udostępnić informacje o pochodzenia danych podrzędnych tables. Delta Lake dodaje transakcje ACID i schema ewolucję, a także inne zaawansowane narzędzia do zapewniania niezawodności, skalowalności i wysokiej jakości danych.
Co to jest usługa Databricks SQL?
Uwaga
Usługa Databricks SQL Serverless nie jest dostępna na platformie Azure w Chinach. Usługa Databricks SQL nie jest dostępna w regionach usługi Azure Government.
Usługa Databricks SQL to kolekcja usług, które zapewniają możliwości magazynowania danych i wydajność istniejących magazynów danych. Usługa Databricks SQL obsługuje otwarte formaty i standardową usługę ANSI SQL. Edytor SQL platformy i narzędzia do pulpitu nawigacyjnego umożliwiają członkom zespołu współpracę z innymi użytkownikami usługi Databricks bezpośrednio w obszarze roboczym. Usługa Databricks SQL integruje się również z różnymi narzędziami, dzięki czemu analitycy mogą tworzyć zapytania i pulpity nawigacyjne w swoich ulubionych środowiskach bez dostosowywania się do nowej platformy.
Usługa Databricks SQL udostępnia ogólne zasoby obliczeniowe, które są wykonywane względem tables w usłudze Lakehouse. Usługa Databricks SQL jest obsługiwana przez magazyny SQL, dawniej nazywane punktami końcowymi SQL, oferując skalowalne zasoby obliczeniowe SQL oddzielone od magazynu.
Aby uzyskać więcej informacji na temat domyślnych i opcji usługi SQL Warehouse, zobacz Nawiązywanie połączenia z usługą SQL Warehouse .
Usługa Databricks SQL integruje się z Unity Catalog, dzięki czemu można odnajdywać, audytować i zarządzać zasobami danych z jednego miejsca. Aby dowiedzieć się więcej, zobacz Co to jest Unity Catalog?
Modelowanie danych w usłudze Azure Databricks
Jezioro obsługuje różne style modelowania. Na poniższej ilustracji przedstawiono sposób, w jaki dane są wyselekcjonowane i modelowane podczas przechodzenia przez różne warstwy jeziora.
Architektura medalionu
Architektura medalionu to wzorzec projektowania danych, który opisuje serię przyrostowo uściślionych warstw danych, które zapewniają podstawową strukturę w lakehouse. Brązowe, srebrne i złote warstwy oznaczają zwiększenie jakości danych na każdym poziomie, a złoto reprezentuje najwyższą jakość. Aby uzyskać więcej informacji, zobacz Co to jest architektura medalonu lakehouse?.
Wewnątrz jeziora każda warstwa może zawierać co najmniej jedną tables. Magazyn danych jest modelowany w warstwie srebrnej i generuje wyspecjalizowane składnice danych w warstwie złota.
Warstwa z brązu
Dane mogą wprowadzać swoje jezioro w dowolnym formacie i za pośrednictwem dowolnej kombinacji transakcji wsadowych lub parowych. Warstwa z brązu zapewnia miejsce docelowe dla wszystkich danych pierwotnych w oryginalnym formacie. Te dane są konwertowane na Delta tables.
Warstwa srebrna
Warstwa srebrna łączy dane z różnych źródeł. W ramach firmy, która koncentruje się na aplikacjach nauki o danych i uczeniu maszynowym, where zaczynasz curate znaczących zasobów danych. Ten proces jest często oznaczony przez skupienie się na szybkości i elastyczności.
Warstwa srebrna jest również where można dokładnie zintegrować dane z różnych źródeł w celu utworzenia magazynu danych zgodnie z istniejącymi procesami biznesowymi. Często te dane są zgodne z trzecim modelem formularza normalnego (3NF) lub magazynu danych. Określanie ograniczeń klucza podstawowego i obcego umożliwia użytkownikom końcowym zrozumienie relacji table podczas korzystania z Catalogaparatu Unity. Magazyn danych powinien służyć jako pojedyncze źródło prawdy dla składnic danych.
Sam magazyn danych jest schema-on-write i atomowy. Jest ona zoptymalizowana pod kątem zmian, dzięki czemu można szybko zmodyfikować magazyn danych w celu dopasowania ich do bieżących potrzeb, gdy procesy biznesowe zmieniają się lub ewoluują.
Warstwa złota
Warstwa złota to warstwa prezentacji, która może zawierać co najmniej jedną składnicę danych. Często datamarty są modelami wymiarowymi w postaci set powiązanych tables, które odzwierciedlają określoną perspektywę biznesową.
Warstwa złota zawiera również piaskownice działu i nauki o danych, aby umożliwić samoobsługową analizę i naukę o danych w całym przedsiębiorstwie. Udostępnienie tych piaskownic i własnych oddzielnych klastrów obliczeniowych uniemożliwia zespołom biznesowym tworzenie kopii danych poza magazynem typu lakehouse.
Następny krok
Aby dowiedzieć się więcej na temat zasad i najlepszych rozwiązań dotyczących implementowania i obsługi usługi Lakehouse przy użyciu usługi Databricks, zobacz Wprowadzenie do dobrze zaprojektowanego magazynu typu data lakehouse.