Konfigurieren einer Delta Live Tables-Pipeline

Artikel
12/17/2024

In diesem Artikel wird die grundlegende Konfiguration für Delta Live Tables-Pipelines mithilfe der Arbeitsbereichsbenutzeroberfläche beschrieben.

Databricks empfiehlt, neue Pipelines ohne Server zu entwickeln. Konfigurationsanweisungen für serverlose Pipelines finden Sie unter Konfigurieren einer serverlosen Delta Live Tables-Pipeline.

Die Konfigurationsanweisungen in diesem Artikel verwenden Unity-Katalog. Anweisungen zum Konfigurieren von Pipelines mit legacy hive metastore finden Sie unter Verwenden von Delta Live Tables-Pipelines mit legacy hive metastore.

Hinweis

Die Benutzeroberfläche verfügt über eine Option zum Anzeigen und Bearbeiten von Einstellungen in JSON. Sie können die meisten Einstellungen entweder mit der Benutzeroberfläche oder mit einer JSON-Spezifikation konfigurieren. Einige erweiterte Optionen sind nur mit der JSON-Konfiguration verfügbar.

JSON-Konfigurationsdateien sind auch bei der Bereitstellung von Pipelines in neuen Umgebungen oder bei Verwendung der CLI oder der REST-API hilfreich.

Eine vollständige Referenz zu den JSON-Konfigurationseinstellungen von Delta Live Tables finden Sie unter Delta Live Tables-Pipelinekonfigurationen.

Konfigurieren einer neuen Delta Live Tables-Pipeline

Gehen Sie wie folgt vor, um eine neue Delta Live Tables-Pipeline zu konfigurieren:

Klicken Sie in der Randleiste auf Delta Live Tables .
Klicken Sie auf "Pipeline erstellen".
Geben Sie einen eindeutigen Pipelinenamen an.
(Optional) Verwenden Sie die Dateiauswahl, um Notizbücher und Arbeitsbereichsdateien als Quellcode zu konfigurieren.
- Wenn Sie keinen Quellcode hinzufügen, wird ein neues Notizbuch für die Pipeline erstellt. Das Notizbuch wird in einem neuen Verzeichnis in Ihrem Benutzerverzeichnis erstellt, und ein Link zum Zugriff auf dieses Notizbuch wird im Feld "Quellcode " im Bereich "Pipelinedetails " angezeigt, nachdem Sie die Pipeline erstellt haben.
  - Sie können auf dieses Notizbuch mit der URL zugreifen, die im Feld "Quellcode " im Bereich "Pipelinedetails " angezeigt wird, nachdem Sie Ihre Pipeline erstellt haben.
- Verwenden Sie die Schaltfläche "Quellcode hinzufügen", um zusätzliche Quellcoderessourcen hinzuzufügen.
Wählen Sie "Unity-Katalog " unter "Speicheroptionen" aus.
Wählen Sie einen Katalog aus, um Daten zu veröffentlichen.
Wählen Sie ein Schema im Katalog aus. Alle in der Pipeline definierten Streamingtabellen und materialisierten Ansichten werden in diesem Schema erstellt.
Aktivieren Sie im Abschnitt "Compute " das Kontrollkästchen neben "Photonbeschleunigung verwenden". Weitere Überlegungen zur Berechnungskonfiguration finden Sie unter Computekonfigurationsoptionen.
Klicken Sie auf Erstellen.

Diese empfohlenen Konfigurationen erstellen eine neue Pipeline, die für die Ausführung im Triggermodus konfiguriert ist und den aktuellen Kanal verwendet. Diese Konfiguration wird für viele Anwendungsfälle empfohlen, einschließlich Entwicklung und Tests, und eignet sich gut für Produktionsworkloads, die nach einem Zeitplan ausgeführt werden sollen. Ausführliche Informationen zum Planen von Pipelines finden Sie unter Delta Live Tables-Pipelineaufgabe für Aufträge.

Computekonfigurationsoptionen

Databricks empfiehlt immer die Verwendung der erweiterten automatischen Skalierung. Standardwerte für andere Computekonfigurationen funktionieren gut für viele Pipelines.

Serverlose Pipelines entfernen Computekonfigurationsoptionen. Konfigurationsanweisungen für serverlose Pipelines finden Sie unter Konfigurieren einer serverlosen Delta Live Tables-Pipeline.

Verwenden Sie die folgenden Einstellungen zum Anpassen von Computekonfigurationen:

Arbeitsbereichsadministratoren können eine Clusterrichtlinie konfigurieren. Mithilfe von Computerichtlinien können Administratoren steuern, welche Computeoptionen benutzern zur Verfügung stehen. Siehe Auswählen einer Clusterrichtlinie.
Sie können optional den Clustermodus so konfigurieren, dass er mit fester Größe oder legacy automatischer Skalierung ausgeführt wird. Weitere Informationen finden Sie unter Optimieren der Clusternutzung von Delta Live Tables-Pipelines mit verbesserter automatischer Skalierung.
Legen Sie für Workloads mit aktivierter automatischer Skalierung Min-Worker und Max-Worker fest, um Grenzwerte für Skalierungsverhalten festzulegen. Siehe Konfigurieren der Compute für eine Delta Live Tables-Pipeline.
Sie können die Photonbeschleunigung optional deaktivieren. Weitere Informationen finden Sie unter Was ist Photon?.
Verwenden Sie Clustertags , um die Kosten zu überwachen, die mit Delta Live Tables-Pipelines verbunden sind. Siehe Konfigurieren von Clustertags.
Konfigurieren Sie Instanztypen , um den Typ der virtuellen Computer anzugeben, die zum Ausführen der Pipeline verwendet werden. Siehe Auswählen von Instanztypen zum Ausführen einer Pipeline.
- Wählen Sie einen Workertyp aus, der für die in Ihrer Pipeline konfigurierten Workloads optimiert ist.
- Sie können optional einen Treibertyp auswählen, der sich von Ihrem Arbeitstyp unterscheidet. Dies kann hilfreich sein, um die Kosten in Pipelines mit großen Workertypen und geringer Berechnungsauslastung des Treibers oder für die Auswahl eines größeren Treibertyps zu reduzieren, um Probleme mit nicht genügend Arbeitsspeicher in Workloads mit vielen kleinen Mitarbeitern zu vermeiden.

Weitere Konfigurationsüberlegungen

Die folgenden Konfigurationsoptionen stehen auch für Pipelines zur Verfügung:

Die Advanced Product Edition bietet Ihnen Zugriff auf alle Delta Live Tables-Features. Sie können Pipelines optional mit den Pro - oder Core-Produkteditionen ausführen. Siehe "Produktedition auswählen".
Sie können den Modus "Fortlaufende Pipeline" verwenden, wenn Pipelines in der Produktion ausgeführt werden. Siehe "Triggered vs. continuous pipeline mode".
Wenn Ihr Arbeitsbereich nicht für Den Unity-Katalog konfiguriert ist oder Ihre Workload ältere Hive-Metaspeicher verwenden muss, lesen Sie " Verwenden von Delta Live Tables-Pipelines mit legacy hive metastore".
Fügen Sie Benachrichtigungen für E-Mail-Updates basierend auf Erfolgs- oder Fehlerbedingungen hinzu. Siehe Hinzufügen von E-Mail-Benachrichtigungen für Pipelineereignisse.
Verwenden Sie das Feld "Konfiguration ", um Schlüsselwertpaare für die Pipeline festzulegen. Diese Konfigurationen dienen zwei Zwecken:
- Legen Sie beliebige Parameter fest, auf die Sie im Quellcode verweisen können. Siehe Verwenden von Parametern mit Delta Live Tables-Pipelines.
- Konfigurieren Sie Pipelineeinstellungen und Spark-Konfigurationen. Weitere Informationen finden Sie unter Delta Live Tables-Eigenschaftenreferenz.
Verwenden Sie den Vorschaukanal , um Ihre Pipeline mit ausstehenden Änderungen der Delta Live Tables-Laufzeit zu testen und neue Features zu testen.

Auswählen einer Produktedition

Wählen Sie die Delta Live Tables-Produktedition mit den besten Features für Ihre Pipelineanforderungen. Die folgenden Produkt editionen sind verfügbar:

Core zum Ausführen von Workloads zur Streamerfassung Wählen Sie die Core-Edition aus, wenn Ihre Pipeline keine erweiterten Features benötigt, z. B. die Änderungsdatenaufnahme (CDC) oder die Erwartungen von Delta Live Tables.
Pro zum Ausführen von Streaming-Ingest- und CDC-Workloads. Die Pro Produkt edition unterstützt alle Core Features sowie unterstützung für Workloads, die Tabellen basierend auf Änderungen in Quelldaten aktualisieren müssen.
Advanced zum Ausführen von Streaming-Aufnahmelasten, CDC-Workloads und Workloads, die Erwartungen erfordern. Die Advanced Produktedition unterstützt die Features und Core Pro Editionen und umfasst Einschränkungen der Datenqualität mit den Erwartungen von Delta Live Tables.

Sie können die Produktedition auswählen, wenn Sie eine Pipeline erstellen oder bearbeiten. Sie können eine andere Edition für jede Pipeline wählen. Weitere Informationen finden Sie auf der Delta Live Tables-Produktseite.

Hinweis: Wenn Ihre Pipeline Features enthält, die von der ausgewählten Produktedition nicht unterstützt werden, z. B. Erwartungen, erhalten Sie eine Fehlermeldung mit einer Erklärung der Fehlerursache. Anschließend können Sie die Pipeline bearbeiten, um die entsprechende Edition auszuwählen.

Quellcode konfigurieren

Sie können die Dateiauswahl auf der Delta Live Tables-Benutzeroberfläche verwenden, um den Quellcode zu konfigurieren, der Ihre Pipeline definiert. Pipelinequellcode wird in Databricks-Notebooks oder SQL- oder Python-Skripts definiert, die in Arbeitsbereichsdateien gespeichert sind. Wenn Sie Ihre Pipeline erstellen oder bearbeiten, können Sie ein oder mehrere Notebooks oder Arbeitsbereichsdateien oder eine Kombination aus Notebooks und Arbeitsbereichsdateien hinzufügen.

Da Delta Live Tables Datasetabhängigkeiten automatisch analysiert, um das Verarbeitungsdiagramm für Ihre Pipeline zu erstellen, können Sie Quellcoderessourcen in beliebiger Reihenfolge hinzufügen.

Sie können die JSON-Datei so ändern, dass Delta Live Tables Quellcode enthält, der in SQL- und Python-Skripts definiert ist, die in Arbeitsbereichsdateien gespeichert sind. Das folgende Beispiel enthält Notebooks und Arbeitsbereichsdateien:

{
  "name": "Example pipeline 3",
  "storage": "dbfs:/pipeline-examples/storage-location/example3",
  "libraries": [
    { "notebook": { "path": "/example-notebook_1" } },
    { "notebook": { "path": "/example-notebook_2" } },
    { "file": { "path": "/Workspace/Users/<user-name>@databricks.com/Apply_Changes_Into/apply_changes_into.sql" } },
    { "file": { "path": "/Workspace/Users/<user-name>@databricks.com/Apply_Changes_Into/apply_changes_into.py" } }
  ]
}

Verwalten externer Abhängigkeiten für Pipelines, die Python verwenden

Delta Live Tables unterstützt die Verwendung externer Abhängigkeiten in Ihren Pipelines, z. B. Python-Pakete und -Bibliotheken. Informationen zu Optionen und Empfehlungen für die Verwendung von Abhängigkeiten finden Sie unter Verwalten von Python-Abhängigkeiten für Delta Live Tables-Pipelines.

Verwenden von Python-Modulen, die in Ihrem Azure Databricks-Arbeitsbereich gespeichert sind

Zusätzlich zur Implementierung Ihres Python-Codes in Databricks-Notebooks können Sie Datenbricks Git-Ordner oder Arbeitsbereichsdateien verwenden, um Ihren Code als Python-Module zu speichern. Das Speichern Ihres Codes als Python-Module ist besonders nützlich, wenn Sie allgemeine Funktionen haben, die Sie in mehreren Pipelines oder Notebooks in derselben Pipeline verwenden möchten. Informationen zum Verwenden von Python-Modulen mit Ihren Pipelines finden Sie unter Importieren von Python-Modulen aus Git-Ordnern oder Arbeitsbereichsdateien.

Freigeben über