Automatisieren der Datentransformationen

Abgeschlossen

Das Vorbereiten von Daten für maschinelles Lernen ist erforderlich, wenn Sie effektive Modelle erstellen möchten. Azure Databricks kann mithilfe der Rechenleistung von Spark große Datasets effizient verarbeiten und vorbereiten.

Sehen Sie sich an, wie die einzelnen Schritte im Workflow für maschinelles Lernen im Zusammenhang mit Daten in Azure Databricks ausgeführt werden.

Speichern der gesammelten Daten in Azure Storage

Wenn Sie Daten aus verschiedenen Quellen sammeln, ist es am besten, Ihre Daten in einer Speicherlösung wie Azure Blob Storage oder Azure Data Lake zu speichern.

Das Speichern von Daten in einer Azure Storage-Lösung anstelle der direkten Speicherung in Azure Databricks bietet eine höhere Skalierbarkeit, mehr Sicherheit und eine bessere Integration mit anderen Azure-Diensten.

Azure Storage-Lösungen bieten eine robuste und flexible Umgebung für die Verwaltung großer Datasets, damit Sie sicherstellen können, dass Ihre Daten für die Verarbeitung und Analyse einfach verfügbar sind.

Verwenden Sie Unity Catalog, um den Zugriff auf alle im Cloudspeicher gespeicherten Daten zu verwalten. Unity Catalog bietet eine einheitliche Governancelösung für alle Datenressourcen, sodass Sie Berechtigungen und Zugriffssteuerungen für alle Ihre Datenbestände verwalten können.

Erkunden und Vorbereiten Ihrer Daten

Nachdem Sie eine Verbindung mit Ihren Daten hergestellt haben, können Sie die Daten mit der explorativen Datenanalyse (EDA) erkunden. Basierend auf Ihren Erkenntnissen bereiten Sie Daten für den Umgang mit fehlenden Daten vor und führen das Feature Engineering und alle weiteren Datentransformationen durch, die Ihrer Meinung nach der Verbesserung der Leistung Ihres Modells dienen.

Verwenden Sie für die Erstanalyse Databricks-Notebooks, um die Daten zu erkunden und zu verstehen. Sie können für große Datasets Spark SQL oder PySpark verwenden, um die Daten zusammenzufassen, auf Nullwerte zu überprüfen und die Datenverteilungen zu verstehen.

Automatisieren des Feature Engineerings in Azure Databricks

Automatisierte Feature Engineering-Tools und -Bibliotheken wie Featuretools und AutoFeat gewinnen an Beliebtheit, da sie den Prozess zum Generieren und Auswählen von Features optimieren. Diese Tools verwenden Algorithmen, um automatisch Features aus Rohdaten zu erstellen, deren Wichtigkeit zu bewerten und die relevantesten für die Modellierung auszuwählen. Dieser Ansatz spart Zeit und reduziert die Abhängigkeit vom manuellen Feature Engineering.

Automatisieren von Datentransformationen in Azure Databricks

Nach der Erkundung können Sie Datentransformationen automatisieren, indem Sie Pipelines einrichten. Eine Möglichkeit zur Automatisierung stellt das Einrichten von Aufträgen in Azure Databricks zum Automatisieren von Notebooks und Skripts dar. Mit Azure Databricks-Aufträgen können Sie Ihre Notebooks oder JAR-Dateien als Aufträge planen und ausführen, um Ihre Datenverarbeitungsworkflows zu automatisieren.

Führen Sie die folgenden Schritte aus, um in Azure Databricks einen Auftrag einzurichten:

  1. Erstellen eines Auftrags: Navigieren Sie im Databricks-Arbeitsbereich zur Registerkarte „Aufträge“, und wählen Sie Create job aus. Geben Sie einen Namen für Ihren Auftrag ein, und geben Sie die Notebook- oder JAR-Datei an, die Sie ausführen möchten.
  2. Konfigurieren des Auftrags: Legen Sie die Parameter für Ihren Auftrag fest, z. B. die Clusterkonfiguration, den Zeitplan für die Ausführung des Auftrags und alle Abhängigkeiten. Sie können auch E-Mail-Benachrichtigungen für Änderungen des Auftragsstatus angeben.
  3. Ausführen und Überwachen des Auftrags: Nachdem der Auftrag konfiguriert wurde, können Sie ihn manuell oder gemäß dem festgelegten Zeitplan ausführen. Sie können den Fortschritt des Auftrags überwachen und Protokolle anzeigen, um Probleme zu beheben.

Tipp

Weitere Informationen finden Sie unter Erstellen und Ausführen von Azure Databricks-Aufträgen.

Alternativ können Sie Azure-Dienste verwenden, um automatisierte Datenpipelines zu erstellen.

Automatisieren der Datenintegration mit Azure Data Factory

Azure Data Factory ist ein Tool zum Erstellen und Verwalten von Datenpipelines. Es ermöglicht Ihnen die Erstellung datengesteuerter Workflows zur Orchestrierung von Datenverschiebungen und -transformationen.

Führen Sie die folgenden Schritte aus, um in Azure Data Factory eine Datenpipeline zu erstellen:

  1. Erstellen einer Data Factory: Erstellen Sie im Azure-Portal eine neue Data Factory-Instanz.
  2. Erstellen einer Pipeline: Erstellen Sie auf der Benutzeroberfläche von Data Factory eine neue Pipeline, und fügen Sie ihr Aktivitäten hinzu. Aktivitäten können Datenverschiebungen, Datentransformationen und Ablaufsteuerungsvorgänge umfassen.
  3. Konfigurieren von Aktivitäten: Legen Sie die Parameter für jede Aktivität fest, z. B. die Quell- und Zieldatenspeicher, die Transformationslogik und mögliche Abhängigkeiten.
  4. Planen und Überwachen: Planen Sie die Ausführung der Pipeline in bestimmten Intervallen, und überwachen Sie ihre Ausführung. Sie können Protokolle anzeigen und Warnungen für potenzielle Probleme einrichten.

Tipp

Weitere Informationen zu Azure Data Factory

Durch die Automatisierung von Datentransformationen und Workflows mit Azure Databricks-Aufträgen oder Azure Data Factory stellen Sie eine konsistente Datenverarbeitung sicher und machen so Ihre Machine Learning-Modelle noch effizienter und zuverlässiger.