Team Data Science-Prozess für Datenanalysten

Artikel
08/08/2024

Dieser Artikel enthält Anleitungen und Trainings für die Ziele, die Sie festlegen sollten, wenn Sie umfassende Data-Science-Lösungen mit Azure-Technologien implementieren.

Ziele für Datenanalyst*innen

Diese Liste beschreibt die wesentlichen Ziele für Datenanalyst*innen, die den Team Data Science-Prozess (TDSP) verwenden:

Grundlegendes zu Analyseworkloads.
Verwenden des TDSP-Lebenszyklus.
Verwenden von Azure Machine Learning.
Grundlagen von Datenübertragung und Datenspeicherung.
Bereitstellen von Dokumentationen zu Datenquellen.
Verwenden von Tools für die Analyseverarbeitung.

Diese Ziele sind entscheidend für die Vorbereitung auf die Verwendung des TDSP. Der TDSP beschreibt einen umfassenden Ansatz für die effektive Verwaltung und Einführung von Data-Science-Projekten. In diesem Artikel wird die Bedeutung der einzelnen Ziele beschrieben. Darüber hinaus werden Links zu den relevanten Azure-Ressourcen bereitgestellt.

Grundlegendes zu Analyseworkloads

Identifizieren der Anforderungen: Dieser Schritt umfasst die Beschaffung von Informationen zu den spezifischen Anforderungen und Zielen des Analyseworkloads. Dies hilft bei der Identifizierung der geschäftlichen Fragen, die beantwortet werden müssen, und der Probleme, die gelöst werden müssen.
Definieren des Umfangs: Dieser Schritt umfasst die klare Definition des Projektumfangs, damit sich das Team auf relevante Aufgaben in den Bereichen Daten und Analyse konzentrieren kann.
Zuteilen von Ressourcen: Dieser Schritt umfasst die Analyse des Workloads, um die erforderlichen Ressourcen zu identifizieren, z. B. Computingleistung, Speicher und menschliches Wissen.

Integration innerhalb des TDSP

Azure verfügt über zahlreiche Ressourcen, die Sie für Analyseworkloads verwenden können. Die folgende Liste enthält empfohlene Ressourcen in Azure-Architekturen.

Planung und Ausführung: Verwenden Sie das Cloud Adoption Framework für Azure für die strategische Planung und die Governance. Dieses Framework stellt sicher, dass Ihr Analyseworkload an den Geschäftszielen und Complianceanforderungen ausgerichtet ist. Es baut darüber hinaus auf dem vergleichsweise unkomplizierten Framework auf, das Sie im TDSP verwenden. Zu den Features des Cloud Adoption Framework gehören:
- Strategische Planung: Stellt strategische Anleitungen zur Ausrichtung der Cloudeinführung an den Geschäftszielen bereit. „Strategische Planung“ bedeutet, dass Sie Analyseworkloads entwerfen, um die Ziele des Unternehmens zu erreichen.
- Governance und Compliance: Stellt Frameworks für Governance und Compliance bereit. Governance- und Compliance-Frameworks sorgen dafür, dass Datenverarbeitungs- und Analyseworkloads die gesetzlichen Anforderungen und die Unternehmensrichtlinien einhalten.
- Migration und Modernisierung: Führt die Migration vorhandener Analyseworkloads zu Azure durch, um nur minimale Unterbrechungen und eine optimale Leistung in der neuen Umgebung sicherzustellen.
- Verwaltung und Betrieb: Beschreibt bewährte Methoden für die Verwaltung und die Ausführung von Cloudressourcen, was eine effiziente und zuverlässige Ausführung der Analyseworkloads sicherstellt.
- Optimierung: Stellt Tools und Methoden für die kontinuierliche Optimierung von Workloads bereit. „Optimierung“ bedeutet eine effiziente Nutzung von Ressourcen und eine effektive Kontrolle der Kosten.
Entwicklung und Zusammenarbeit: Verwenden Sie Azure Synapse Analytics, um Analyselösungen zu entwickeln, zu testen und bereitzustellen und Datenanalyst*innen und Entwickler*innen eine teamorientierte Umgebung zu bieten. Wir empfehlen die Verwendung der Azure Synapse Analytics-Plattform für die Verarbeitung von Big Data, z. B. mit einem Umfang von einem Terabyte und mehr, sowie für die Entwicklung von Modellen in den Bereichen maschinelles Lernen und künstliche Intelligenz (KI). Zu den Features von Azure Synapse Analytics gehören:
- Vereinheitlichte Erfahrung: Bereitstellung einer einheitlichen Erfahrung, um Daten für Business-Intelligence- und Machine-Learning-Anforderungen sofort zu erfassen, vorzubereiten, zu verwalten und bereitzustellen.
- Datenintegration: Nahtlose Integration mit verschiedenen Datenquellen, was eine umfassende Datenerfassung und Datenverarbeitung ermöglicht.
- Big Data and Data Warehousing: Kombination von Big-Data- und Data-Warehousing-Funktionen, sodass Sie komplexe Abfragen für große Datasets effizient ausführen können.
- Skalierbarkeit: Skalierung der Rechenressourcen basierend auf den Workloadanforderungen, was die effektive Verarbeitung unterschiedlicher Datenverarbeitungsworkloads sicherstellt.
- Zusammenarbeit: Unterstützung der Zusammenarbeit innerhalb von Data-Science-Teams durch die Bereitstellung geteilter Arbeitsbereiche und integrierter Entwicklungsumgebungen (IDEs).
- Analyse: Unterstützung von erweiterten Analysen und maschinellem Lernen mit integrierter Integration von Diensten wie Machine Learning und Power BI.
Überwachung und Optimierung: Verwendung von Azure Monitor zur Nachverfolgung der Leistung, Identifizierung von Problemen und Optimierung des Analyseworkloads. Azure Monitor unterstützt eine hohe Verfügbarkeit und Zuverlässigkeit. Zu den Features von Azure Monitor gehören:
- Datenerfassung: Sammlung von Metriken und Protokollen aus verschiedenen Quellen, einschließlich Azure-Ressourcen, Anwendungen und Betriebssystem.
- Überwachung: Bereitstellung von Erkenntnissen zur Leistung und Integrität von Analyseworkloads durch die Überwachung von Metriken wie CPU-Nutzung, Arbeitsspeichernutzung und Durchsatz.
- Diagnose: Unterstützung bei der Identifizierung von Problemen und Anomalien in den Datenverarbeitungspipelines und -workloads mittels Diagnose- und Aktivitätsprotokollen.
- Warnungen: Konfiguration von Warnungen basierend auf spezifischen Metriken oder Protokolldaten und umgehende Benachrichtigungen zu potenziellen Problemen, die sich auf die Leistung oder Zuverlässigkeit Ihrer Analyseworkloads auswirken könnten.
- Visualisierung: Bereitstellung anpassbarer Dashboards und Arbeitsmappen für die Visualisierung von Daten, was Ihnen hilft, Trends und Muster bei der Workloadleistung zu verstehen.

Verwenden des TDSP-Lebenszyklus

Sie können den TDSP-Lebenszyklus verwenden, um die Entwicklung Ihrer Data-Science-Projekte zu strukturieren.

Strukturierter Ansatz: Bereitstellung eines strukturierten Frameworks für die Ausführung von Data-Science-Projekten und Förderung eines systematischen und disziplinierten Ansatzes.
Zusammenarbeit: Förderung der Zusammenarbeit zwischen Teammitgliedern durch die Definition klarer Rollen und Verantwortlichkeiten.
Bewährte Methoden: Integration bewährter Methoden der Branche und Unterstützung bei der effizienten und effektiven Ausführung von Projekten.

Integration für Datenanalyst*innen

Der TDSP ist ein peer-geprüftes Architekturframework, das Datenanalyst*innen ein spezifisches Framework für die Erstellung von KI- und Data-Science-Modellen bietet.

TDSP-Übersicht: Einführung in den TDSP und dessen Lebenszyklus.
TDSP-Lebenszyklus und wesentliche Komponenten: Beschreibung der Lebenszyklusphasen und wesentlichen Komponenten des TDSP.

Verwenden von Azure Machine Learning

Sie verwenden Machine Learning für die Entwicklung und Bereitstellung von Machine-Learning-Modellen. Machine Learning ist die wichtigste empfohlene Azure-Ressource für jede der fünf Phasen des TDSP-Lebenszyklus: Geschäftsverständnis, Datenerfassung und Dateninterpretation, Modellierung, Bereitstellung und Kundenakzeptanz. Zu den Funktionen von Machine Learning gehören:

Erweiterte Analysen: Bereitstellung leistungsstarker Tools und Dienste für Erstellung, Training und Bereitstellung von Machine-Learning-Modellen.
Skalierbarkeit: Bereitstellung skalierbarer Computingressourcen, sodass Teams große Datasets und komplexe Modelle verarbeiten können.
Integration: Problemlose Integration mit anderen Azure-Diensten und Unterstützung eines nahtlosen Workflows von der Datenerfassung bis zur Bereitstellung.

So unterstützt Machine Learning die einzelnen Phasen des TDSP:

Geschäftliche Aspekte

In dieser ersten Phase hilft Machine Learning Ihnen, Ihre Geschäftsanforderungen zu verstehen und die Ziele Ihres Data-Science-Projekts zu definieren.

Projektarbeitsbereiche: Bereitstellung von Projektarbeitsbereichen, in denen Teams zusammenarbeiten und Dokumente teilen können. Dank der Zusammenarbeit können sich alle Beteiligten an den Geschäftszielen ausrichten.
Nachverfolgung von Experimenten: Unterstützung für die Erstellung von Dokumentationen und die Fähigkeit, die anfänglichen Hypothesen und Geschäftsmetriken nachzuverfolgen, die Ihr Data-Science-Projekt anleiten.
Integration mit Azure DevOps: Verwaltung von Projektworkflows, User Storys und Aufgaben. Azure DevOps unterstützt die Zuordnung geschäftlicher Informationen zu umsetzbaren Elementen.

Datenerfassung und -auswertung

In dieser Phase unterstützt Machine Learning Sie bei der Sammlung und Untersuchung von Daten, um ihre Struktur und Relevanz für das geschäftliche Problem zu verstehen.

Datenintegration: Machine Learning kann nahtlos in Azure Data Lake, Azure SQL-Datenbank und weitere Datendienste integriert werden, was die einfache Datenerfassung aus verschiedenen Quellen unterstützt.
Datenbeschriftung: integrierte Tools für die Datenbeschriftung, mit denen Sie Datasets kommentieren können, was für überwachte Lernmodelle nützlich ist.
Explorative Datenanalyse (EDA): Jupyter Notebooks und integrierte Python/R-Umgebungen in Machine Learning ermöglichen eine gründliche EDA, um Datenverteilungen zu verstehen, Muster zu identifizieren und Anomalien zu erkennen.

Modellierung

In dieser Phase entwickeln Data Scientists Machine-Learning-Modelle und trainieren sie, um geschäftliche Probleme zu lösen.

Automatisiertes maschinelles Lernen: automatische Auswahl der am besten geeigneten Algorithmen und Optimierung von Hyperparametern, um den Modellentwicklungsprozess zu beschleunigen.
Benutzerdefinierte Modellierung: Unterstützung der Entwicklung benutzerdefinierter Modelle mithilfe verbreiteter Frameworks wie TensorFlow, PyTorch und scikit-learn.
Experimente und Versionsverwaltung: Unterstützung für die parallele Ausführung mehrerer Experimente, Nachverfolgung von Ergebnissen und Versionsverwaltungsmodelle, was den Vergleich und die Auswahl des besten Modells vereinfacht.
Optimierung von Hyperparametern: Optimierung der Modellleistung mit integrierter Unterstützung für die automatisierte Hyperparameteroptimierung.

Bereitstellung

In dieser Phase stellt Machine Learning Ihr Modell zur Verwendung in Produktionsumgebungen bereit, nachdem Sie es entwickelt und validiert haben.

Modellimplementierung: Bereitstellung verschiedener Bereitstellungsoptionen, einschließlich Azure Kubernetes Service (AKS) und Edgegeräten, was flexible Bereitstellungsstrategien ermöglicht.
Endpunktverwaltung: Bereitstellung von Tools für die Verwaltung von Endpunkten für Echtzeit- und Batchvorhersagen und Unterstützung für eine skalierbare und zuverlässige Modellbereitstellung.
Continuous Integration und Continuous Deployment (CI/CD): Integration mit Azure DevOps, was CI/CD für Machine-Learning-Modelle ermöglicht, um wiederholbare Übergänge von der Entwicklung zur Produktion zu erstellen.

Kundenakzeptanz

In dieser letzten Phase liegt der Schwerpunkt auf der Verwendung von Machine Learning, um das bereitgestellte Modell so zu optimieren, dass es die geschäftlichen Anforderungen erfüllt und Werte realisiert.

Modellüberwachung: Bereitstellung umfassender Überwachungsfunktionen zur Nachverfolgung der Modellleistung, zur Erkennung von Drift und zur Sicherstellung, dass die Modelle über die Zeit genau und relevant bleiben.
Feedbackschleifen: Unterstützung für die Implementierung von Feedbackschleifen, bei denen Sie Vorhersagen verwenden und überprüfen, um Modelle neu zu trainieren sowie die Genauigkeit und Relevanz von Modellen kontinuierlich zu verbessern.
Berichterstellung und Visualisierung: Integration mit Notebooks, Power BI und anderen Visualisierungstools, um Dashboards und Berichte zu erstellen und Projektbeteiligten die anhand von Modellen gewonnenen Ergebnisse und Erkenntnisse vorzustellen.
Sicherheit und Compliance: Unterstützung der Einhaltung gesetzlicher Bestimmungen durch Modelle und Daten sowie Bereitstellung von Tools für die Verwaltung von Datenschutz und Datensicherheit.

Grundlagen von Datenübertragung und Datenspeicherung

Die effektive Übertragung und Speicherung von Daten ist eine kritische Grundlage für die sichere Verwaltung großer Datenmengen.

Datenverwaltung: Unterstützung für die Verwaltung großer Datenmengen auf die effektivste, kompatibelste und effizienteste Weise, die möglich ist.
Barrierefreiheit: Unterstützung der einfachen Zugänglichkeit für Teammitglieder und Analysetools, was für Zusammenarbeit und Echtzeitverarbeitung unverzichtbar ist.
Compliance und Sicherheit: Unterstützung der Einhaltung gesetzlicher und behördlicher Anforderungen bei der Datenverarbeitung und Schutz vertraulicher Daten.

Integration der Übertragung und Speicherung von Daten innerhalb des TDSP

Azure verfügt über zahlreiche Ressourcen, die Sie für die Übertragung und Speicherung von Daten nutzen können. Die folgende Liste enthält empfohlene Ressourcen für Azure-Architekturen.

Azure-Datenübertragungsoptionen: verschiedene Methoden und Tools zum effizienten Verschieben von Daten zu und aus Azure, was unterschiedliche Datenanforderungen und Datengrößen erfüllt.

Azure Data Box: Übertragung von Massendaten im großen Umfang an Azure über ein physisches Gerät, ohne sich auf das Internet verlassen zu müssen. So können Terabyte von Daten sicher übertragen werden, wenn die Netzwerkbandbreite begrenzt ist.
Azure Import/Export-Dienst: Unterstützung der Übertragung großer Datenmengen an Azure, indem Festplatten direkt an Azure-Rechenzentren gesendet werden. Dieser Dienst ist nützlich für die ersten Phasen von Datenmigrationen, wenn der Upload über ein Netzwerk nicht praktikabel ist.
Azure Data Factory: Automatisierung und Verarbeitung von Datenübertragungen. Data Factory ist ein cloudbasierter Dienst für die Datenintegration, der Datenverschiebung und Datentransformation orchestriert und automatisiert. Der Dienst ermöglicht komplexe Prozesse für Extrahieren, Transformieren, Laden (ETL) und integriert Daten aus verschiedenen Quellen in Azure für Analysezwecke und Aufgaben im Bereich des maschinellen Lernens.
Netzwerkübertragung: internetbasierte Hochgeschwindigkeitsübertragungen über Azure ExpressRoute. Die Netzwerkübertragung stellt eine private Verbindung zwischen der lokalen Infrastruktur und Azure bereit, über die Daten sicher und schnell übertragen werden können.

Azure Database Migration Service: Migration von Datenbanken zu Azure, um Ausfallzeiten zu minimieren und die Datenintegrität zu unterstützen. Database Migration Service ist ein vollständig verwalteter Dienst, der nahtlose Migrationen aus mehreren Datenbankquellen zu Azure-Datenplattformen bei minimalen Ausfallzeiten unterstützt (oder Onlinemigrationen). Es bietet folgende Vorteile:

Automatisierte Migration: Vereinfachung des Migrationsprozesses durch die Bereitstellung automatisierter Workflows für die Verschiebung lokaler Datenbanken zu SQL Database, Azure Database for MySQL und Azure Database for PostgreSQL.
Kontinuierliche Replikation: Unterstützung der kontinuierlichen Datenreplikation, was Ausfallzeiten minimiert und Daten während der Migration auf dem neuesten Stand hält.
Kompatibilität: Unterstützung von Kompatibilitätsprüfungen und Empfehlungen von Optimierungen für die Azure-Zielumgebung, um den Übergang nahtlos und effizient zu gestalten.
Bewertungstools: Bereitstellung von Tools zur Bewertung der Bereitschaft von Datenbanken für die Migration, um potenzielle Probleme zu identifizieren und Empfehlungen zu ihrer Lösung bereitzustellen.

Azure Storage: Bereitstellung skalierbarer, sicherer und permanenter Speicherlösungen, die an verschiedene Arten von Daten und Anwendungsfällen angepasst sind. Die folgenden Speichertypen werden unterstützt:

Blob Storage: Speicherung unstrukturierter Daten wie Dokumente, Bilder, Videos und Sicherungen. Dieser Speichertyp ist ideal für Datenanalyst*innen geeignet, die große Datasets für Machine-Learning-Modelle speichern müssen.
Azure Data Lake Storage: Verarbeitung von Big-Data-Analysen. Data Lake Storage stellt einen hierarchischen Namespace bereit, ist mit Hadoop kompatibel und ist daher für umfangreiche Datenanalyseprojekte geeignet.
Azure Table Storage: Speicherung von NoSQL-Schlüsselwerten für halbstrukturierte Daten; geeignet für Anwendungen, die ein schemaloses Design erfordern.
Azure Files Storage: Verwaltung von Dateifreigaben in der Cloud, auf die Sie über das SMB-Standardprotokoll zugreifen können, was für geteilte Speicheranforderungen nützlich ist.
Azure Queue Storage: Bereitstellung von Messaging zwischen Anwendungskomponenten, was für die Entkopplung und Skalierung von Diensten nützlich ist.

Bereitstellen von Dokumentationen zu Datenquellen

Datentransparenz: Dokumentationen zu Datenquellen bieten Transparenz hinsichtlich der Quellen, der Qualität und der Einschränkungen von Daten.
Reproduzierbarkeit: Eine ordnungsgemäße Dokumentation hilft anderen Teammitgliedern oder Projektbeteiligten, den Data-Science-Prozess zu verstehen und zu reproduzieren.
Datenintegration: „Datenintegration“ bedeutet die effektive Integration verschiedener Datenquellen durch Bereitstellung klarer Informationen zu Ursprung und Struktur der Daten.

Integration der Datenquellendokumentation in den TDSP

Azure verfügt über zahlreiche Ressourcen, die Sie für Dokumentationen zu Datenquellen verwenden können, einschließlich Notebooks. Die folgende Liste enthält empfohlene Ressourcen für Azure-Architekturen.

Azure Data Catalog ist ein unternehmensweiter Metadatenkatalog, der die Entdeckung von Datenressourcen vereinfacht. Der Katalog unterstützt die Dokumentierung von Datenquellen und ihren Merkmalen und bietet die folgenden Vorteile:

Metadatenverwaltung: Ermöglicht Benutzer*innen das Registrieren von Datenquellen und das Hinzufügen von Metadaten, die Beschreibungen, Tags und Anmerkungen enthalten.
Entdeckung von Datenquellen: Bereitstellung eines durchsuchbaren Katalogs für Benutzer*innen, um die Datenquellen zu finden und zu verstehen, die innerhalb der Organisation verfügbar sind.
Zusammenarbeit: Ermöglicht Benutzer*innen das Teilen von Erkenntnissen und Dokumentationen zu Datenquellen, was die Zusammenarbeit zwischen Teammitgliedern verbessert.
Informationen zu Datenquellen: automatische Extrahierung und Dokumentation von Informationen zu Datenquellen. Zu den extrahierten Informationen gehören Schemas, Tabellen, Spalten und Beziehungen.

Azure Purview: Bereitstellung eines konsolidierten Datengovernancediensts für die Verwaltung und Governance von Daten in der gesamten Organisation. Er bietet die folgenden Funktionen:

Zuordnung und Herkunft von Daten: Unterstützung für die Dokumentierung des Datenflusses und der Herkunft über verschiedene Systeme hinweg, was eine klare Übersicht über die Quellen der Daten und die Art ihrer Transformation bietet.
Datenkatalog: Bereitstellung eines durchsuchbaren Datenkatalogs, der mit Metadaten und Datenklassifizierungen erweitert wurde, vergleichbar Azure Data Catalog.
Unternehmensglossar: Unterstützung beim Erstellen und Verwalten eines Unternehmensglossars, um die Konsistenz der Terminologie zu gewährleisten und das Verständnis über die gesamte Organisation hinweg zu fördern.
Erkenntnisse und Analysen: Erkenntnisse in Bezug auf die Datennutzung und Unterstützung bei der Identifizierung von Problemen mit der Datenqualität, was den Dokumentationsprozess verbessert.

Verwenden von Tools für die Analyseverarbeitung

Effizienz: Die richtigen Tools für die Analyseverarbeitung verbessern die Effizienz und Geschwindigkeit von Datenanalysen.
Funktionen: Verschiedene Tools stellen verschiedene Funktionen bereit, z. B. Datenvisualisierung, statistische Analysen und maschinelles Lernen, die für eine umfassende Data Science unverzichtbar sind.
Produktivität: Spezialisierte Tools können die Produktivität von Datenanalyst*innen erheblich verbessern, indem sie sich wiederholende Aufgaben automatisieren und erweiterte Analysefunktionen bereitstellen.

Integration der Analyseverarbeitung in den TDSP

Azure verfügt über zahlreiche Dienste, die Sie für die Analyseverarbeitung verwenden können, wobei primär Machine Learning empfohlen wird. Die folgende Liste stellt empfohlene Dienste für Azure-Architekturen bereit, die Funktionen über das maschinelle Lernen hinaus erfordern.

Azure Synapse Analytics: Ermöglicht Ihnen die Verarbeitung massiver Mengen von relationalen und nichtrelationalen Daten. Bei diesem Dienst handelt es sich um einen integrierten Analysedienst, der die Zeit bis zum Erhalt von Erkenntnisse aus Data Warehouses und Big-Data-Systemen verkürzt. Azure Synapse Analytics stellt die folgende Funktionalität bereit:

Datenintegration: Integration von Daten aus verschiedenen Quellen, was eine nahtlose Datenerfassung und Datenverarbeitung ermöglicht.
SQL Data Warehouse: Bereitstellung von Data-Warehousing-Funktionen für Unternehmen mit leistungsstarker Abfragefunktionalität.
Apache Spark: Bereitstellung von Spark-Pools für die Big-Data-Verarbeitung zur Unterstützung von umfangreichen Datenanalysen und maschinellem Lernen.
Synapse Studio: Ermöglicht Datenanalyst*innen die Erstellung von End-to-End-Analyselösungen im Team. Synapse Studio ist eine integrierte Entwicklungsumgebung (IDE).

Azure Databricks ist eine Apache Spark-basierte Analyseplattform, die für Azure optimiert ist und die folgenden Funktionen bereitstellt:

Kollaborative Notebooks: Unterstützung für kollaborative Arbeitsbereiche, in denen Datenanalyst*innen Code schreiben, Experimente ausführen und Ergebnisse teilen können.
Skalierbares Compute: automatische Skalierung von Computeressourcen basierend auf Workloadanforderungen sowie Optimierung von Kosten und Leistung.
Maschinelles Lernen: Bereitstellung von integrierten Bibliotheken für maschinelles Lernen, einschließlich MLlib, TensorFlow und Keras, um die Entwicklung und das Training von Modellen zu optimieren.

Data Factory: Orchestrierung von Datenverschiebung und Datentransformation mittels des cloudbasierten Datenintegrationsdiensts. Data Factory unterstützt die folgende Funktionalität:

ETL-Pipelines: Unterstützung für die Erstellung von Pipelines für Extrahieren, Transformieren, Laden (ETL) zur Verarbeitung und Vorbereitung von Daten für Analysen.
Datenfluss: visuelle Erstellung von Datenflüssen, um Datentransformationsprozesse zu entwerfen und auszuführen, ohne Code zu schreiben.
Integration: Herstellung von Verbindungen mit einer großen Zahl von Datenquellen, einschließlich lokaler und cloudbasierter Datenspeicher. Diese Funktion unterstützt eine umfassende Datenintegration.

Azure Stream Analytics: Verarbeitung sich schnell bewegender Datenströme. Stream Analytics ist ein Echtzeitanalysedienst, der die folgenden Funktionen bereitstellt:

Datenverarbeitung: Echtzeitverarbeitung von Daten aus verschiedenen Quellen, z. B. IoT-Geräten, Sensoren und Anwendungen.
SQL-basierte Abfragen: Verwendung einer vertrauten SQL-basierten Sprache zum Definieren der Streamverarbeitungslogik, um sie für Datenanalyst*innen zugänglich zu machen.
Integration: Integration mit anderen Azure-Diensten, z. B. Event Hubs und IoT Hub, um eine nahtlose Erfassung und Verarbeitung von Daten zu ermöglichen.

Zusammenfassung

Diese sequenzielle Liste hilft Ihnen, sich umfassend auf die Verwendung des TDSP vorzubereiten:

Erwerben Sie ein klares Verständnis der Projektanforderungen und des Umfangs.
Wenden Sie einen strukturierten und kollaborativen Ansatz für die Projektausführung an.
Nutzen Sie erweiterte Tools und Dienste für maschinelles Lernen und Analysen.
Sorgen Sie für eine effiziente und sichere Datenverwaltung.
Sorgen Sie für Transparenz und Reproduzierbarkeit mithilfe von Dokumentationen.
Verwenden Sie geeignete Tools, um die Effizienz und Effektivität der Datenverarbeitung zu verbessern.

Die Vorbereitung hat kritische Bedeutung für die erfolgreiche Durchführung von Data-Science-Projekten, um die geschäftlichen Ziele zu erreichen und bewährte Methoden zu befolgen.

Trainingspfade in Microsoft Learn

Ob Sie erst am Anfang Ihrer beruflichen Laufbahn stehen oder bereits über Erfahrung verfügen: Mit unserem Selbststudiumansatz können Sie Ihre Ziele schneller erreichen – mit mehr Selbstvertrauen und in Ihrem eigenen Tempo. Entwickeln Sie Fähigkeiten durch interaktive Module und Pfade, oder lernen Sie von Kursleiter*innen. Bilden Sie sich auf Ihre Art und Weise weiter.

Microsoft Learn unterteilt die Trainingsinhalte in drei Qualifikationsstufen: Einstiegsstufe, Zwischenstufe und Fortgeschrittenstufe. Es ist wichtig, diese Unterschiede zu verstehen, um Lernpfade auszuwählen, die für Ihre Kompetenzstufe und Ihre Karriereziele geeignet sind.

Einstiegsstufe

Zielgruppe: Personen, die noch nicht mit der Technologie oder den Konzepten vertraut sind, die behandelt werden.
Inhalt: Grundlegende Einführungen in Konzepte, grundlegende Fähigkeiten und erste Schritte für den Einstieg. Umfasst in der Regel Kernprinzipien und Basiswissen.

Zweck:

Entwicklung einer soliden Grundlage in einem neuen Bereich
Hilft Lernenden, grundlegende Konzepte und Begriffe zu verstehen
Bereitet Lernende auf komplexere Artikel vor

Lernpfade auf der Einstiegsstufe

Zwischenstufe

Zielgruppe: Personen, die ein Basiswissen in Bezug auf die Technologie besitzen und ihre Kenntnisse vertiefen möchten.
Inhalt: Vermittlung detaillierterer und praxisorientierter Kompetenzen, einschließlich praktischer Übungen und realer Szenarien. Diese Trainings erfordern eine umfassendere Behandlung der jeweiligen Themen.

Zweck:

Überbrückung der Lücke zwischen Basiswissen und fortgeschrittenen Kenntnissen
Unterstützung für Lernende bei der Behandlung komplexerer Aufgaben und Szenarien
Vorbereitung von Lernenden auf Zertifizierungsprüfungen oder spezielle Rollen

Lernpfade auf der Zwischenstufe

Erweitert

Zielgruppe: Erfahrene Personen, die ihre Kompetenzen perfektionieren und komplexe High-Level-Aufgaben lösen möchten.
Inhalt: fundierte technische Trainings, erweiterte Techniken und umfassende Abdeckung von speziellen Themen. Die Trainings umfassen häufig Strategien für Problemlösung und Optimierung auf Expertenebene.

Zweck:

Bereitstellung von Wissen in einem bestimmten Bereich
Vorbereitung von Lernenden auf Zertifizierungen auf Expertenstufe und fortgeschrittene Karriererollen
Unterstützung von Lernenden hinsichtlich der Leitung von Projekten und Innovationen auf ihrem Gebiet

Lernpfad auf der Fortgeschrittenstufe

Trainieren rechenintensiver Modelle mit Machine Learning

Beitragende

Dieser Artikel wird von Microsoft gepflegt. Er wurde ursprünglich von folgenden Mitwirkenden geschrieben:

Hauptautor:

Mark Tabladillo | Senior Cloud Solution Architect

Melden Sie sich bei LinkedIn an, um nicht öffentliche LinkedIn-Profile anzuzeigen.

Nächste Schritte

Setzen Sie Ihre KI-Journey im KI-Lernhub fort.

Freigeben über

Team Data Science-Prozess für Datenanalysten

Ziele für Datenanalyst*innen

Grundlegendes zu Analyseworkloads

Integration innerhalb des TDSP

Verwenden des TDSP-Lebenszyklus

Integration für Datenanalyst*innen

Verwenden von Azure Machine Learning

Geschäftliche Aspekte

Datenerfassung und -auswertung

Modellierung

Bereitstellung

Kundenakzeptanz

Grundlagen von Datenübertragung und Datenspeicherung

Integration der Übertragung und Speicherung von Daten innerhalb des TDSP

Bereitstellen von Dokumentationen zu Datenquellen

Integration der Datenquellendokumentation in den TDSP

Verwenden von Tools für die Analyseverarbeitung

Integration der Analyseverarbeitung in den TDSP

Zusammenfassung

Trainingspfade in Microsoft Learn

Einstiegsstufe

Lernpfade auf der Einstiegsstufe

Zwischenstufe

Lernpfade auf der Zwischenstufe

Erweitert

Lernpfad auf der Fortgeschrittenstufe

Beitragende

Nächste Schritte

Feedback

Zusätzliche Ressourcen

Freigeben über

Team Data Science-Prozess für Datenanalysten

Ziele für Datenanalyst*innen

Grundlegendes zu Analyseworkloads

Integration innerhalb des TDSP

Verwenden des TDSP-Lebenszyklus

Integration für Datenanalyst*innen

Verwenden von Azure Machine Learning

Geschäftliche Aspekte

Datenerfassung und -auswertung

Modellierung

Bereitstellung

Kundenakzeptanz

Grundlagen von Datenübertragung und Datenspeicherung

Integration der Übertragung und Speicherung von Daten innerhalb des TDSP

Bereitstellen von Dokumentationen zu Datenquellen

Integration der Datenquellendokumentation in den TDSP

Verwenden von Tools für die Analyseverarbeitung

Integration der Analyseverarbeitung in den TDSP

Zusammenfassung

Trainingspfade in Microsoft Learn

Einstiegsstufe

Lernpfade auf der Einstiegsstufe

Zwischenstufe

Lernpfade auf der Zwischenstufe

Erweitert

Lernpfad auf der Fortgeschrittenstufe

Beitragende

Nächste Schritte

Zugehörige Ressourcen

Feedback

Zusätzliche Ressourcen