Maschinelles Lernen in Azure Databricks

Abgeschlossen

Azure Databricks bietet eine umfassende cloudbasierte Umgebung für die Entwicklung von Machine Learning-Modellen. Machine Learning ist eine Disziplin, bei der wissenschaftliche Fachkräfte für Daten, die die Daten analysieren und modellieren, und Machine Learning-Techniker, die Modelle bereitstellen und verwalten, zusammenarbeiten. Azure Databricks ermöglicht Data Scientists die Durchführung von Datenerfassungs-, Untersuchungs- und Vorbereitungsaufgaben sowie Modelltrainings-, Auswertungs- und Verwaltungsaufgaben.

Screenshot of the Azure Databricks portal for the Machine Learning persona.

Databricks-Runtimes für maschinelles Lernen

Wenn Sie einen Cluster in einem Azure Databricks-Arbeitsbereich erstellen, können Sie die Databricks-Runtime angeben, die im Cluster installiert werden soll. Azure Databricks enthält einige Databricks-Runtimes, die für maschinelles Lernen optimiert sind. Sie umfassen Unterstützung für Bibliotheken, die häufig in Machine Learning-Workloads verwendet werden, darunter Machine Learning-Frameworks und -Hilfsprogramme für die Verwaltung von Machine Learning-Vorgängen.

Wenn Sie Machine Learning-Lösungen implementieren möchten, erstellen Sie einen Cluster mit einer der ML-Runtimes. Sie können eine CPU-basierte Runtime für klassische Machine Learning-Szenarien auswählen oder sich für eine GPU-basierte Runtime entscheiden, wenn Sie komplexe neuronale Netze mit Deep Learning-Frameworks erstellen müssen, die von der Fähigkeit einer GPU zur effizienten Verarbeitung matrix- und vektorbasierter Daten profitieren können.

Machine Learning-Frameworks in Azure Databricks

Azure Databricks basiert auf Apache Spark, einer hochgradig skalierbaren Plattform für verteilte Datenverarbeitung. In Spark arbeiten wissenschaftliche Fachkräfte für Daten und Machine Learning-Techniker in der Regel in interaktiven Notebooks, in denen Code für die Aufbereitung und Verwendung von Daten zum Trainieren von Machine Learning-Modellen in PySpark (einer für Spark optimierten Variante von Python) geschrieben wird. Innerhalb des Python-Ökosystems gibt es viele häufig verwendete Machine Learning-Frameworks, zum Beispiel:

  • Scikit-Learn: Ein beliebtes Framework für maschinelles Lernen, das eine Vielzahl von Algorithmen und anderen Bibliotheken bereitstellt, die Sie beim Trainieren und Bewerten von Vorhersagemodellen unterstützen.
  • Spark MLlib: Eine speziell für Spark erstellte Machine Learning-Bibliothek. MLlib bietet zwei Möglichkeiten zum Trainieren und Auswerten von Machine Learning-Modellen:
    • Klassen, die auf der RDD-Struktur (Resilient Distributed Dataset) von Spark basieren.
    • Klassen, die auf der Spark-Datenframestruktur basieren. Dieses Framework (allgemein als Spark ML bezeichnet) ist das bevorzugte Framework für die Verwendung von MLlib.
  • PyTorch: Ein Deep Learning-Framework zum Erstellen von Modellen aus neuronalen Netzen für komplexe Workloads für Vorhersage, maschinelles Sehen und die Verarbeitung natürlicher Sprache.
  • TensorFlow: Ein weiteres häufig verwendetes Deep Learning-Framework.

Sie können jedes dieser Frameworks (und weitere) in Azure Databricks verwenden, um Machine Learning-Modelle zu trainieren und auszuwerten.