Einführung in Azure Data Lake Storage

Artikel
09/04/2024

Azure Data Lake Storage setzt auf Azure Blob Storage auf und bietet eine Reihe von Funktionen für die Big Data-Analyse.

Azure Data Lake Storage vereint die Funktionen von Azure Data Lake Storage Gen1 und Azure Blob Storage. Beispielsweise bietet Data Lake Storage Dateisystemsemantik, Sicherheit auf Dateiebene und Skalierung. Da diese Funktionen auf Blob Storage basieren, profitieren Sie gleichzeitig von kostengünstigem, mehrstufigem Speicher mit Hochverfügbarkeit und Notfallwiederherstellungsfunktionen.

Mit Data Lake Storage wird Azure Storage zur Grundlage für das Erstellen von Enterprise Data Lakes in Azure. Data Lake Storage wurde eigens für die Verarbeitung mehrerer Petabyte an Informationen bei gleichzeitiger Unterstützung eines Durchsatzes von Hunderten von Gigabit konzipiert und bietet Ihnen eine einfache Möglichkeit, riesige Datenmengen zu verwalten.

Was ist ein Data Lake?

Ein Data Lake ist ein einzelnes, zentralisiertes Repository, in dem Sie alle Ihre Daten speichern können, sowohl strukturierte als auch unstrukturierte. Mit einem Data Lake kann Ihre Organisation eine Vielzahl von Daten schnell und einfach an einem zentralen Ort speichern, darauf zugreifen und sie analysieren. Mit einem Data Lake müssen Sie Ihre Daten nicht an eine vorhandene Struktur anpassen. Stattdessen können Sie Ihre Daten im Rohformat oder nativen Format speichern, in der Regel als Dateien oder als Binary Large Objects (Blobs).

Azure Data Lake Storage ist eine cloudbasierte Data Lake-Lösung für Unternehmen. Die Lösung wurde entwickelt, um große Datenmengen in jedem beliebigen Format zu speichern und Big Data-Analyseworkloads zu ermöglichen. Sie verwenden sie, um Daten eines beliebigen Typs und beliebiger Erfassungsgeschwindigkeit an einem zentralen Ort zu erfassen, um den Zugriff und die Analyse mithilfe verschiedener Frameworks zu vereinfachen.

Data Lake Storage

Azure Data Lake Storage ist kein dedizierter Dienst- oder Kontotyp. Stattdessen wird es als eine Reihe von Funktionen implementiert, die Sie mit dem Blob Storage-Dienst Ihres Azure Storage-Kontos verwenden. Sie können diese Funktionen entsperren, indem Sie die Einstellung„hierarchischer Namespace“ aktivieren.

Data Lake Storage umfasst die folgenden Funktionen.

✓ Hadoop-kompatibler Zugriff

✓ Hierarchische Verzeichnisstruktur

✓ Optimierte Kosten und Leistung

✓ Genaueres Sicherheitsmodell

✓ Große Skalierbarkeit

Hadoop-kompatibler Zugriff

Azure Data Lake Storage ist in erster Linie für die Arbeit mit Hadoop und allen Frameworks konzipiert, die Apache Hadoop Distributed File System (HDFS) als Datenzugriffsebene verwenden. Hadoop-Distributionen enthalten den Azure Blob File System (ABFS)-Treiber, der vielen Anwendungen und Frameworks den direkten Zugriff auf Azure Blob Storage ermöglicht. Der ABFS-Treiber ist speziell für Big Data-Analysen optimiert. Die entsprechenden REST-APIs werden über den Endpunkt dfs.core.windows.net bereitgestellt.

Datenanalyseframeworks, die HDFS als Datenzugriffsebene verwenden, können direkt auf Azure Data Lake Storage-Daten über ABFS zugreifen. Die Apache Spark-Analyse-Engine und die Presto SQL-Abfrage-Engine sind Beispiele für solche Frameworks.

Weitere Informationen zu unterstützten Diensten und Plattformen finden Sie unter Azure-Dienste, die Azure Data Lake Storage unterstützen und Open-Source-Plattformen, die Azure Data Lake Storage unterstützen.

Hierarchische Verzeichnisstruktur

Der hierarchische Namespace ist ein wichtiges Feature, mit dem Azure Data Lake Storage Hochleistungsdatenzugriff auf Objektspeicherebene und zu einem entsprechenden Preis bereitstellen kann. Mit diesem Feature können Sie alle Objekte und Dateien in Ihrem Speicherkonto in einer Hierarchie von Verzeichnissen und geschachtelten Unterverzeichnissen organisieren. Anders ausgedrückt: Ihre Azure Data Lake Storage-Daten werden ähnlich organisiert wie Dateien auf Ihrem Computer.

Vorgänge wie das Umbenennen oder Löschen eines Verzeichnisses werden zu einzelnen atomaren Metadatenvorgängen im Verzeichnis. Es müssen nicht alle Objekte aufgezählt und verarbeitet werden, die das Namenspräfix des Verzeichnisses gemeinsam haben.

Optimierte Kosten und Leistung

Die Preise für Azure Data Lake Storage entsprechen denen von Azure Blob Storage. Sie bauen auf Azure Blob Storage-Funktionen wie automatisierte Lebenszyklusrichtlinienverwaltung und Tiering auf Objektebene auf, um die Kosten für Big Data-Speicher zu verwalten.

Die Leistung ist optimiert, da Sie keine Daten als Voraussetzung für die Analyse kopieren oder transformieren müssen. Die hierarchische Namespacefunktion von Azure Data Lake Storage ermöglicht effizienten Zugriff und effiziente Navigation. Diese Architektur bedeutet, dass die Datenverarbeitung weniger Rechenressourcen erfordert, was sowohl die Geschwindigkeit als auch die Kosten für den Zugriff auf Daten reduziert.

Genaueres Sicherheitsmodell

Das Zugriffssteuerungsmodell von Azure Data Lake Storage unterstützt sowohl rollenbasierte Zugriffssteuerung von Azure (Azure RBAC) als auch POSIX-Zugriffssteuerungslisten (Portable Operating System Interface for UNIX). Es gibt auch einige zusätzliche Sicherheitseinstellungen, die spezifisch für Azure Data Lake Storage sind. Sie können Berechtigungen auf Verzeichnisebene oder auf Dateiebene festlegen. Alle gespeicherten Daten werden im Ruhezustand mithilfe von durch Microsoft verwalteten oder vom Kunden verwalteten Verschlüsselungsschlüsseln verschlüsselt.

Große Skalierbarkeit

Azure Data Lake Storage bietet umfangreichen Speicherplatz und akzeptiert zahlreiche Datentypen für Analysen. Es gibt keinerlei Einschränkungen für Kontogrößen, Dateigrößen oder die Menge an Daten, die im Data Lake gespeichert werden können. Einzelne Dateien können Größen von wenigen KB bis hin zu wenigen PB aufweisen. Die Verarbeitung erfolgt mit nahezu konstanten Wartezeiten pro Anforderung, die auf Dienst-, Konten- und Dateiebene gemessen werden.

Dieses Design bedeutet, dass Azure Data Lake Storage problemlos und schnell hochskaliert werden kann, um die anspruchsvollsten Workloads zu ermöglichen. Die Lösung kann auch genauso einfach wieder herunterskaliert werden, wenn der Bedarf nachlässt.

Basiert auf Azure Blob Storage

Die erfassten Daten bleiben als Blobs im Speicherkonto erhalten. Der Dienst, der Blobs verwaltet, ist der Azure Blob Storage-Dienst. Data Lake Storage beschreibt die Funktionen oder „Erweiterungen“ dieses Diensts, die den Anforderungen von Big Data-Analyseworkloads gerecht werden.

Da diese Funktionen auf Blob Storage basieren, stehen Ihrem Konto Funktionen wie Diagnoseprotokollierung, Zugriffsebenen und Lebenszyklusverwaltungsrichtlinien zur Verfügung. Die meisten Blob Storage-Funktionen werden vollständig unterstützt. Einige Funktionen werden jedoch möglicherweise nur auf Vorschauebene unterstützt und eine Hand voll Funktionen wird noch nicht unterstützt. Eine vollständige Liste der Supportanweisungen finden Sie unter Unterstützung der Blob Storage-Funktion in Azure Storage-Konten. Der Status jeder aufgelisteten Funktion ändert sich im Laufe der Zeit, da die Unterstützung laufend erweitert wird.

Dokumentation und Terminologie

Das Azure Blob Storage-Inhaltsverzeichnis enthält zwei Inhaltsabschnitte. Der Abschnitt Data Lake Storage enthält bewährte Methoden und Anleitungen für die Verwendung von Data Lake Storage-Funktionen. Der Abschnitt Blob Storage enthält Anleitungen zu Kontofunktionen, die nicht für Data Lake Storage spezifisch sind.

In den verschiedenen Abschnitten werden Sie einige kleinere Unterschiede in der Terminologie feststellen. In der Dokumentation zu Blob Storage, wird beispielsweise der Begriff Blob anstelle von Datei verwendet. Technisch gesehen werden die Dateien, die Sie in Ihrem Speicherkonto erfassen, im Konto zu Blobs. Daher ist der Begriff richtig. Der Begriff Blob kann jedoch zu Verwirrung führen, wenn Sie an den Begriff Datei gewöhnt sind. Außerdem wird der Begriff Container zur Bezeichnung eines Dateisystems verwendet. Diese beiden Begriffe sind als Synonyme zu verstehen.

Freigeben über