Erste Schritte mit Azure Databricks
Azure Databricks ist eine cloudbasierte Datenanalyseplattform, die eine einheitliche Umgebung für Datentechnik, maschinelles Lernen und Analysen bietet. Azure Databricks ist in Zusammenarbeit mit Databricks entstanden, dessen Führung Apache Spark entwickelt hat. Azure Databricks bietet einen schnellen und benutzerfreundlichen Analysedienst für die Zusammenarbeit auf Basis von Apache Spark. Diese Plattform ist tief in die anderen Azure-Dienste integriert und bietet Benutzern eine nahtlose Erfahrung mit verbesserter Sicherheit, Leistung und Skalierbarkeit. Sie ermöglicht datengesteuerte Aufgaben wie Datenvorbereitung, Maschinelles Lernen und Data Science-Workflows und ist somit ein vielseitiges Tool für Organisationen, die die Leistungsfähigkeit von Big Data nutzen möchten.
Zu den wichtigsten Features von Azure Databricks gehören die native Integration mit Microsoft Entra ID und die Möglichkeit, andere Azure-Dienste wie Azure Storage, Azure Data Lake Storage und Azure Cosmos DB zu verwenden. Die Plattform bietet auch einen interaktiven Arbeitsbereich, der die Zusammenarbeit von Data Scientists, Data Engineers und Business Analysts fördert. Diese kollaborative Umgebung unterstützt verschiedene Programmiersprachen wie Python, Scala, R und SQL, sodass Teams ihre Datenmodelle effizient entwickeln und iterieren können. Darüber hinaus ist Azure Databricks so konzipiert, dass es einfach skaliert werden kann und sowohl die rechentechnischen Anforderungen von Machine Learning-Algorithmen als auch die Verarbeitungsanforderungen großer Datasets verwaltet.
Erstellen eines Azure Databricks-Arbeitsbereichs
Um Azure Databricks zu verwenden, müssen Sie einen Azure Databricks-Arbeitsbereich in Ihrem Azure-Abonnement erstellen. Sie erreichen dies folgendermaßen:
- Verwendung der Benutzeroberfläche des Azure-Portals
- Verwendung einer Azure Resource Manager (ARM)- oder Bicep-Vorlage
- Verwenden des Cmdlets New-AzDatabricksWorkspace Azure PowerShell
- Verwendung des Befehls az databricks workspace create Azure Command Line Interface (CLI)
Wenn Sie einen Arbeitsbereich erstellen, müssen Sie einen der folgenden Tarife angeben.
- Standard: Kernfunktionen von Apache Spark mit Microsoft Entra ID-Integration.
- Premium - Rollenbasierte Zugriffssteuerungen und andere Features auf Unternehmensebene.
- Testversion - Eine 14-tägige kostenlose Testversion eines Arbeitsbereichs auf Premiumebene
Verwenden des Azure Databricks-Portals
Nachdem Sie einen Azure Databricks-Arbeitsbereich bereitgestellt haben, können Sie das Azure Databricks-Portal verwenden, um mit Daten und Rechenressourcen zu arbeiten. Das Azure Databricks-Portal ist eine webbasierte Benutzeroberfläche, mit der Sie Arbeitsbereichsressourcen, z. B. Spark-Cluster, erstellen und verwalten und Notebooks und Abfragen verwenden können, um mit Daten in Dateien und Tabellen zu arbeiten.