Best Practices für serverloses Computing
Dieser Artikel enthält Empfehlungen für bewährte Methoden für die Verwendung von serverlosem Computing in Ihren Notebooks und Aufträgen.
Anhand dieser Empfehlungen verbessern Sie die Produktivität, Kosteneffizienz und Zuverlässigkeit Ihrer Workloads auf Azure Databricks.
Migrieren von Workloads zu serverloser Berechnung
Um die Isolation von Benutzercode zu schützen, verwendet das serverlose Compute den sicheren Modus für freigegebenen Zugriff auf Azure Databricks. Aus diesem Gründen erfordern einige Workloads Codeänderungen, um weiterhin auf serverlosem Compute zu arbeiten. Eine Liste der nicht unterstützten Features finden Sie unter Serverless Compute Limitations.
Bestimmte Workloads sind einfacher zu migrieren als andere. Workloads, welche die folgenden Anforderungen erfüllen, sind am einfachsten zu migrieren:
- Auf die Daten, auf die zugegriffen wird, muss im Unity-Katalog gespeichert werden.
- Die Workload sollte mit der Berechnung des gemeinsam genutzten Zugriffsmodus kompatibel sein.
- Die Workload sollte mit Databricks Runtime 14.3 oder höher kompatibel sein.
Um zu testen, ob eine Workload auf einem serverlosen Compute funktioniert, führen Sie sie auf einer nicht serverlosen Computeressource mit freigegebenem Zugriffsmodus und einer Databricks-Runtime von 14.3 oder höher aus. Wenn die Ausführung erfolgreich ist, ist die Workload zur Migration bereit.
Aufgrund der Bedeutung dieser Änderung und der aktuellen Liste der Einschränkungen werden viele Workloads nicht nahtlos migriert. Anstatt alles neu zu codieren, empfiehlt Azure Databricks, serverlose Computekompatibilität zu priorisieren, während Sie neue Workloads erstellen.
Aufnehmen von Daten aus externen Systemen
Da die serverlose Berechnung die JAR-Dateiinstallation nicht unterstützt, können Sie keinen JDBC- oder ODBC-Treiber verwenden, um Daten aus einer externen Datenquelle erfassen.
Zu den alternativen Strategien, die Sie für die Aufnahme verwenden können, gehören:
SQL-basierte Bausteine wie COPY INTO und Streamingtabellen.
Der Autoloader zum inkrementellen und effizienten Verarbeiten neuer Datendateien, sobald sie im Cloudspeicher empfangen werden. Weitere Informationen finden Sie unter Automatisches Laden.
Datenerfassungspartnerlösung Siehe Herstellen einer Verbindung mit Erfassungspartnern mittels Partner Connect.
Fügen Sie die Daten-UI hinzu, um Dateien direkt hochzuladen. Siehe Hochladen von Dateien in Azure Databricks.
Aufnahmealternativen
Wenn Sie serverlose Computes verwenden, können Sie auch die folgenden Features verwenden, um Ihre Daten abzufragen, ohne sie zu verschieben.
- Wenn Sie die Datenduplizierung einschränken möchten oder garantieren möchten, dass Sie die neuesten Daten abfragen, empfiehlt Databricks die Verwendung der Delta-Freigabe. Weitere Informationen finden Sie unter Was ist Delta Sharing?.
- Wenn Sie Ad-hoc-Berichterstellung und Machbarkeitsstudien durchführen möchten, empfiehlt Databricks, die richtige Wahl, die möglicherweise Lakehouse Federation ist, zu treffen. Lakehouse Federation ermöglicht die Synchronisierung ganzer Datenbanken mit Azure Databricks von externen Systemen und wird vom Unity-Katalog gesteuert. Weitere Informationen finden Sie unter Was ist Lakehouse Federation?.
Probieren Sie eines oder beide dieser Features aus und überprüfen Sie, ob sie die Anforderungen an die Abfrageleistung erfüllen.
Überwachen der Kosten für serverlose Berechnung
Es gibt mehrere Features, die Sie verwenden können, um die Kosten für serverloses Computing zu überwachen:
Verwenden Sie Systemtabellen, um Dashboards zu erstellen, Warnungen einzurichten und Ad-hoc-Abfragen auszuführen. Siehe Überwachen der Kosten für serverloses Computing.
Richten Sie Budgetwarnungen in Ihrem Konto ein. Siehe Budgets verwenden, um die Kontoausgaben zu überwachen.
Importieren sie ein vorkonfiguriertes Verbrauchsdashboard. Siehe Importieren eines Nutzungsdashboards.