Erfassen von Daten aus Cloudobjektspeicher

Artikel
11/07/2024

In diesem Artikel werden die Möglichkeiten aufgeführt, wie Sie die inkrementelle Aufnahme aus dem Cloudobjektspeicher konfigurieren können.

Benutzeroberfläche zum Hinzufügen von Daten

Wie Sie die Benutzeroberfläche zum Hinzufügen von Daten verwenden, um eine verwaltete Tabelle aus Daten im Cloud-Objektspeicher zu erstellen, erfahren Sie unter Laden von Daten über einen externen Speicherort im Unity Catalog.

Notebook- oder SQL-Editor

In diesem Abschnitt werden Optionen zum Konfigurieren der inkrementellen Aufnahme aus dem Cloudobjektspeicher mithilfe eines Notebooks oder des Databricks SQL-Editors beschrieben.

Autoloader

Autoloader verarbeitet neue Datendateien inkrementell und effizient, sobald sie im Cloudspeicher eingehen, ohne zusätzliche Einrichtung. Der Autoloader stellt eine strukturierte Streamingquelle namens cloudFiles bereit. Mithilfe eines Eingabeverzeichnispfads im Clouddateispeicher verarbeitet die cloudFiles-Quelle automatisch neue Dateien, sobald diese eingehen. Dabei können auch bereits vorhandene Dateien in diesem Verzeichnis verarbeitet werden.

COPY INTO

Mit COPY INTO können SQL-Benutzer idempotent und inkrementell Daten aus dem Cloud-Objektspeicher in Delta-Tabellen einlesen. Sie können COPY INTO in Databricks SQL, Notebooks und Databricks Jobs verwenden.

Verwendung von COPY INTO und Verwendung des Autoloaders

Hier sind ein paar Dinge, die Sie bei der Entscheidung zwischen Auto Loader und COPY INTO beachten sollten:

Wenn Sie Dateien in der Größenordnung von Tausenden über einen längeren Zeitraum erfassen möchten, können Sie COPY INTO verwenden. Wenn Sie Dateien in der Größenordnung von Millionen oder mehr im Laufe der Zeit erwarten, verwenden Sie Autoloader. Auto Loader benötigt im Vergleich zu COPY INTO insgesamt weniger Vorgänge zum Auffinden von Dateien und kann die Verarbeitung in mehrere Stapel aufteilen. Das bedeutet, dass Auto Loader im großen kostengünstiger und effizienter ist.
Wenn Ihr Datenschema häufig weiterentwickelt wird, bietet das automatische Ladeprogramm bessere Grunddatentypen für Schemarückschluss und -entwicklung. Weitere Informationen finden Sie unter Schemarückschluss und -entwicklung in Auto Loader konfigurieren.
Das Laden einer Teilmenge von erneut hochgeladenen Dateien kann mit COPY INTO etwas einfacher zu verwalten sein. Beim automatischen Ladeprogramm ist es schwieriger, eine ausgewählte Teilmenge von Dateien erneut zu verarbeiten. Sie können jedoch COPY INTO verwenden, um die Teilmenge der Dateien erneut zu laden, während ein Stream des Auto Loaders gleichzeitig ausgeführt wird.
Für eine noch skalierbarere und robustere Dateierfassung ermöglicht Auto Loader SQL-Benutzern die Nutzung von Streamingtabellen. Weitere Informationen finden Sie unter Laden von Daten mithilfe von Streamingtabellen in Databricks SQL.

Eine kurze Übersicht und Demonstration des Auto Loaders sowie COPY INTO finden Sie in diesem YouTube-Video (2 Minuten).

Automatisieren von ETL mit Delta Live Tables und Autoloader

Sie können die Bereitstellung einer skalierbaren, inkrementellen Datenerfassungsinfrastruktur mit Autoloader und Delta Live Tables vereinfachen. Delta Live Tables verwendet nicht die in Notebooks zu findende interaktive Standardausführung, sondern betont stattdessen die Bereitstellung einer produktionsbereiten Infrastruktur.

Ingestionstools von einem Drittanbieter

Databricks validiert die Integration von Technologiepartnern, die Ihnen die Aufnahme von Daten aus verschiedenen Quellen, einschließlich Cloud-Objektspeicher, ermöglichen. Diese Integrationen ermöglichen eine einfach zu implementierende und skalierbare Datenerfassung aus verschiedenen Quellen in Azure Databricks mit nur wenig Code. Siehe Technologiepartner. Einige Technologiepartner werden in Was ist Databricks Partner Connect? vorgestellt, das eine Benutzeroberfläche bietet, die das Verbinden von Drittanbietertools mit Ihren Lakehouse-Daten vereinfacht.

Freigeben über