Erfassen von Daten aus Cloudobjektspeicher
In diesem Artikel werden die Möglichkeiten aufgeführt, wie Sie die inkrementelle Aufnahme aus dem Cloudobjektspeicher konfigurieren können.
Benutzeroberfläche zum Hinzufügen von Daten
Wie Sie die Benutzeroberfläche zum Hinzufügen von Daten verwenden, um eine verwaltete Tabelle aus Daten im Cloud-Objektspeicher zu erstellen, erfahren Sie unter Laden von Daten über einen externen Speicherort im Unity Catalog.
Notebook- oder SQL-Editor
In diesem Abschnitt werden Optionen zum Konfigurieren der inkrementellen Aufnahme aus dem Cloudobjektspeicher mithilfe eines Notebooks oder des Databricks SQL-Editors beschrieben.
Autoloader
Autoloader verarbeitet neue Datendateien inkrementell und effizient, sobald sie im Cloudspeicher eingehen, ohne zusätzliche Einrichtung. Der Autoloader stellt eine strukturierte Streamingquelle namens cloudFiles
bereit. Mithilfe eines Eingabeverzeichnispfads im Clouddateispeicher verarbeitet die cloudFiles
-Quelle automatisch neue Dateien, sobald diese eingehen. Dabei können auch bereits vorhandene Dateien in diesem Verzeichnis verarbeitet werden.
COPY INTO
Mit COPY INTO können SQL-Benutzer idempotent und inkrementell Daten aus dem Cloud-Objektspeicher in Delta-Tabellen einlesen. Sie können COPY INTO
in Databricks SQL, Notebooks und Databricks Jobs verwenden.
Verwendung von COPY INTO und Verwendung des Autoloaders
Hier sind ein paar Dinge, die Sie bei der Entscheidung zwischen Auto Loader und COPY INTO
beachten sollten:
Wenn Sie Dateien in der Größenordnung von Tausenden über einen längeren Zeitraum erfassen möchten, können Sie
COPY INTO
verwenden. Wenn Sie Dateien in der Größenordnung von Millionen oder mehr im Laufe der Zeit erwarten, verwenden Sie Autoloader. Auto Loader benötigt im Vergleich zuCOPY INTO
insgesamt weniger Vorgänge zum Auffinden von Dateien und kann die Verarbeitung in mehrere Stapel aufteilen. Das bedeutet, dass Auto Loader im großen kostengünstiger und effizienter ist.Wenn Ihr Datenschema häufig weiterentwickelt wird, bietet das automatische Ladeprogramm bessere Grunddatentypen für Schemarückschluss und -entwicklung. Weitere Informationen finden Sie unter Schemarückschluss und -entwicklung in Auto Loader konfigurieren.
Das Laden einer Teilmenge von erneut hochgeladenen Dateien kann mit
COPY INTO
etwas einfacher zu verwalten sein. Beim automatischen Ladeprogramm ist es schwieriger, eine ausgewählte Teilmenge von Dateien erneut zu verarbeiten. Sie können jedochCOPY INTO
verwenden, um die Teilmenge der Dateien erneut zu laden, während ein Stream des Auto Loaders gleichzeitig ausgeführt wird.Für eine noch skalierbarere und robustere Dateierfassung ermöglicht Auto Loader SQL-Benutzern die Nutzung von Streamingtabellen. Weitere Informationen finden Sie unter Laden von Daten mithilfe von Streamingtabellen in Databricks SQL.
Eine kurze Übersicht und Demonstration des Auto Loaders sowie COPY INTO
finden Sie in diesem YouTube-Video (2 Minuten).
Automatisieren von ETL mit Delta Live Tables und Autoloader
Sie können die Bereitstellung einer skalierbaren, inkrementellen Datenerfassungsinfrastruktur mit Autoloader und Delta Live Tables vereinfachen. Delta Live Tables verwendet nicht die in Notebooks zu findende interaktive Standardausführung, sondern betont stattdessen die Bereitstellung einer produktionsbereiten Infrastruktur.
Tutorial: Ausführen Ihrer ersten ETL-Workload auf Azure Databricks
Erfassen von Daten mithilfe von Streamingtabellen (Python/SQL-Notebook)
Laden von Daten mithilfe von Streamingtabellen in Databricks SQL
Ingestionstools von einem Drittanbieter
Databricks validiert die Integration von Technologiepartnern, die Ihnen die Aufnahme von Daten aus verschiedenen Quellen, einschließlich Cloud-Objektspeicher, ermöglichen. Diese Integrationen ermöglichen eine einfach zu implementierende und skalierbare Datenerfassung aus verschiedenen Quellen in Azure Databricks mit nur wenig Code. Siehe Technologiepartner. Einige Technologiepartner werden in Was ist Databricks Partner Connect? vorgestellt, das eine Benutzeroberfläche bietet, die das Verbinden von Drittanbietertools mit Ihren Lakehouse-Daten vereinfacht.