Verständnis der grundlegenden Konzepte

3 Minuten

Azure Databricks ist eine zentrale Dienstplattform mit mehreren Technologien, die das Arbeiten mit Daten im großen Maßstab ermöglichen. Wenn Sie Azure Databricks verwenden, sollten Sie einige wichtige Konzepte verstehen.

Arbeitsbereiche

Ein Arbeitsbereich ist eine Umgebung, in der Sie auf alle Databricks-Ressourcen zugreifen können. Er bietet eine Benutzeroberfläche zum Verwalten von Notebooks, Bibliotheken und Experimenten. Arbeitsbereiche können in Ordnern organisiert und von Teammitgliedern gemeinsam genutzt werden, wodurch die Zusammenarbeit und das Ressourcenmanagement erleichtert werden.

Notebooks

Databricks Notebooks sind kollaborative Dokumente, die lauffähigen Code, Visualisierungen und erzählenden Text enthalten. Sie unterstützen mehrere Sprachen, einschließlich Python, R, Scala und SQL, die gleichzeitig innerhalb desselben Notebooks verwendet werden können. Notebooks sind für gemeinsame Projekte zentral und eignen sich ideal für explorative Datenanalyse, Datenvisualisierung und komplexe Datenworkflows.

Cluster

Cluster sind die Rechenmodule von Azure Databricks. Benutzer können Cluster entsprechend den erforderlichen Rechenressourcen erstellen und skalieren. Cluster können manuell konfiguriert oder basierend auf der Workload automatisch skaliert werden. Sie unterstützen verschiedene Arten von Knoten für verschiedene Aufgaben, z. B. Treiber- und Workerknoten, um eine effiziente Ressourcenauslastung sicherzustellen.

Aufträge

Aufträge werden in Azure Databricks verwendet, um automatisierte Aufgaben zu planen und auszuführen. Diese Aufgaben können Notebookausführungen, Spark-Aufträge oder beliebige Codeausführungen sein. Aufträge können in einem Zeitplan ausgelöst oder als Reaktion auf bestimmte Ereignisse ausgeführt werden, wodurch Workflows und regelmäßige Datenverarbeitungsaufgaben einfach automatisiert werden können.

Databricks Runtime

Die Databricks Runtime ist eine Reihe leistungsoptimierter Versionen von Apache Spark. Sie umfasst Verbesserungen für optimierte Leistung und zusätzliche Funktionen über Standard-Spark hinaus, z. B. Optimierungen für Machine Learning-Workloads, Graphverarbeitung und Genomik.

Deltasee

Delta Lake ist eine Open Source-Speicherebene, die in Data Lakes für Zuverlässigkeit sorgt. Es bietet ACID-Transaktionen und skalierbare Metadatenverarbeitung und vereint Streaming- und Batchdatenverarbeitung, die alle entscheidend für die konsistente und fehlertolerante Verwaltung großer Daten sind.

Databricks SQL

Databricks SQL bietet eine Möglichkeit zum Ausführen von SQL-Abfragen für die Daten in Azure Databricks. Damit können Datenanalysten schnelle Ad-hoc-Abfragen ausführen und Berichte direkt über Big Data erstellen. Die Lösung enthält einen SQL-Editor, Dashboards und automatische Visualisierungstools und ist somit von denjenigen, die an SQL-Umgebungen gewöhnt sind, benutzerfreundlicher.

MLflow

MLflow ist eine Open-Source-Plattform zur Verwaltung des gesamten Machine Learning-Lebenszyklus. Es enthält Features für die Experimentverfolgung, modellbasierte Verwaltung und Bereitstellung, die Anwendern dabei hilft, ihre ML-Modelle und Experimente effizient zu verwalten und zu teilen.

Weiter