Maschinelles Lernen in Azure Databricks
Azure Databricks bietet eine umfassende cloudbasierte Umgebung für die Entwicklung von Machine Learning-Modellen. Machine Learning ist eine Disziplin, bei der wissenschaftliche Fachkräfte für Daten, die die Daten analysieren und modellieren, und Machine Learning-Techniker, die Modelle bereitstellen und verwalten, zusammenarbeiten. Azure Databricks ermöglicht Data Scientists die Durchführung von Datenerfassungs-, Untersuchungs- und Vorbereitungsaufgaben sowie Modelltrainings-, Auswertungs- und Verwaltungsaufgaben.
Databricks-Runtimes für maschinelles Lernen
Wenn Sie einen Cluster in einem Azure Databricks-Arbeitsbereich erstellen, können Sie die Databricks-Runtime angeben, die im Cluster installiert werden soll. Azure Databricks enthält einige Databricks-Runtimes, die für maschinelles Lernen optimiert sind. Sie umfassen Unterstützung für Bibliotheken, die häufig in Machine Learning-Workloads verwendet werden, darunter Machine Learning-Frameworks und -Hilfsprogramme für die Verwaltung von Machine Learning-Vorgängen.
Wenn Sie Machine Learning-Lösungen implementieren möchten, erstellen Sie einen Cluster mit einer der ML-Runtimes. Sie können eine CPU-basierte Runtime für klassische Machine Learning-Szenarien auswählen oder sich für eine GPU-basierte Runtime entscheiden, wenn Sie komplexe neuronale Netze mit Deep Learning-Frameworks erstellen müssen, die von der Fähigkeit einer GPU zur effizienten Verarbeitung matrix- und vektorbasierter Daten profitieren können.
Machine Learning-Frameworks in Azure Databricks
Azure Databricks basiert auf Apache Spark, einer hochgradig skalierbaren Plattform für verteilte Datenverarbeitung. In Spark arbeiten wissenschaftliche Fachkräfte für Daten und Machine Learning-Techniker in der Regel in interaktiven Notebooks, in denen Code für die Aufbereitung und Verwendung von Daten zum Trainieren von Machine Learning-Modellen in PySpark (einer für Spark optimierten Variante von Python) geschrieben wird. Innerhalb des Python-Ökosystems gibt es viele häufig verwendete Machine Learning-Frameworks, zum Beispiel:
- Scikit-Learn: Ein beliebtes Framework für maschinelles Lernen, das eine Vielzahl von Algorithmen und anderen Bibliotheken bereitstellt, die Sie beim Trainieren und Bewerten von Vorhersagemodellen unterstützen.
- Spark MLlib: Eine speziell für Spark erstellte Machine Learning-Bibliothek. MLlib bietet zwei Möglichkeiten zum Trainieren und Auswerten von Machine Learning-Modellen:
- Klassen, die auf der RDD-Struktur (Resilient Distributed Dataset) von Spark basieren.
- Klassen, die auf der Spark-Datenframestruktur basieren. Dieses Framework (allgemein als Spark ML bezeichnet) ist das bevorzugte Framework für die Verwendung von MLlib.
- PyTorch: Ein Deep Learning-Framework zum Erstellen von Modellen aus neuronalen Netzen für komplexe Workloads für Vorhersage, maschinelles Sehen und die Verarbeitung natürlicher Sprache.
- TensorFlow: Ein weiteres häufig verwendetes Deep Learning-Framework.
Sie können jedes dieser Frameworks (und weitere) in Azure Databricks verwenden, um Machine Learning-Modelle zu trainieren und auszuwerten.