Grundlagen des maschinellen Lernens
Maschinelles Lernen (Machine Learning) ist eine Programmiertechnik, die zum Erstellen von Vorhersagemodellen verwendet wird. Im Gegensatz zur typischen Programmierung, bei der anhand von Code bestimmte Schritte zum Erzielen eines Ergebnisses beschrieben werden, beruht das maschinelle Lernen auf der Verwendung eines Algorithmus, der die Beziehung zwischen den Features einer Datenentität und der Beschriftung, die das resultierende Modell vorhersagen soll, iterativ untersucht. Machine Learning-Algorithmen basieren auf der Wahrscheinlichkeitstheorie und auf Statistiken und nutzen umfangreiche Datenmengen zum Trainieren des Modells.
Einfach ausgedrückt ist ein Machine Learning-Modell eine Funktion, die die Features einer beobachteten Entität (ihre Merkmale) verwendet und eine Berechnung durchführt, um eine vorhergesagte Beschriftung zurückzugeben. Es ist üblich, die Features im Allgemeinen als x und die vorhergesagte Beschriftung als y zu bezeichnen. Daher entspricht ein Machine Learning-Modell im Endeffekt der Funktion f im Ausdruck y = f(x)
.
Der spezifische Vorgang, den die Funktion für die Features ausführt, um einen Wert für die Beschriftung zu berechnen, wird durch den Algorithmus bestimmt, der zum Trainieren des Modells verwendet wird.
Arten von ML
Im Allgemeinen gibt es zwei gängige Arten von maschinellem Lernen:
- Überwachtes maschinelles Lernen, bei dem das Modell mithilfe von Daten trainiert wird, die bekannte Beschriftungswerte enthalten. (So stellt ein Algorithmus anhand der vorhandenen Daten eine Beziehung zwischen x und y her, was zu einer Funktion führt, die auf x angewendet werden kann, um y zu berechnen.)
- Unüberwachtes maschinelles Lernen, bei dem das Modell nur mithilfe von Featurewerten (x) trainiert wird und Beobachtungen mit ähnlichen Features gruppiert (oder in Cluster zusammenfasst) werden.
Überwachtes maschinelles Lernen
Dieses Modul konzentriert sich auf überwachtes maschinelles Lernen, da dies das gängigste Szenario ist. Innerhalb der allgemeinen Definition des überwachten maschinellen Lernens gibt es zwei gängige Arten von Machine Learning-Algorithmus:
Regressionsalgorithmen, bei denen die Beschriftung ein numerischer Wert ist, z. B. ein Preis, eine Temperatur, eine Menge oder ein anderer Wert, der gemessen werden kann. Regressionsalgorithmen erzeugen Modelle, in denen die Funktion (f) mit den Features (x) arbeitet, um den numerischen Wert der Beschriftung (y) zu berechnen.
Beispielsweise könnte ein Regressionsalgorithmus zum Trainieren eines Modells verwendet werden, das die erwartete Anzahl von Eisbechern vorhersagt, die von einem Kiosk in einem Park an einem bestimmten Tag verkauft werden, beispielsweise basierend auf Features wie dem Monat des Jahres, dem Wochentag, der Temperatur und der Luftfeuchtigkeit.
Klassifizierungsalgorithmen, bei denen die Beschriftung eine diskrete Kategorie (oder Klasse) ist. Klassifizierungsalgorithmen erzeugen Modelle, in denen die Funktion (f) mit den Features (y) arbeitet, um einen Wahrscheinlichkeitswert für jede mögliche Klasse zu berechnen, und die Beschriftung (x) für die Klasse mit der höchsten Wahrscheinlichkeit zurückgibt.
Beispielsweise könnte ein Klassifizierungsalgorithmus zum Trainieren eines Modells verwendet werden, das voraussagt, ob ein Patient Diabetes hat oder nicht, beispielsweise basierend auf Features wie Insulinspiegel, Gewicht, Größe oder Alter. Ein Klassifizierungsmodell, das eine von zwei möglichen Klassen (z. B. TRUE oder FALSE) identifiziert, ist ein Beispiel für die binäre Klassifizierung. Algorithmen, die die Wahrscheinlichkeit für mehr als zwei Klassen vorhersagen (z. B. bei Unterscheidung zwischen Patienten ohne Diabetes, mit Typ-1-Diabetes oder mit Typ-2-Diabetes), werden für die Multiklassen-Klassifizierung verwendet.
Unüberwachtes maschinelles Lernen
Die gebräuchlichste Form des unüberwachten Lernens ist das Clustering, bei dem die Features von Datenfällen als Vektor aus Punkten im mehrdimensionalen Raum betrachtet werden. Das Ziel eines Clusteringalgorithmus besteht darin, Cluster zum Gruppieren der Punkte zu definieren, sodass Fälle mit ähnlichen Features eng beieinander liegen, die Cluster jedoch klar voneinander getrennt sind.
Clustering ist nützlich, wenn Sie verschiedene Kategorien von Daten definieren müssen, aber keine vordefinierten Kategorien vorliegen, denen bereits vorhandene Datenbeobachtungen zugewiesen sind. Beispielsweise können Sie Kund*innen anhand von Ähnlichkeiten in ihren Profilen segmentieren. Clustering kann auch als erster Schritt beim Erstellen einer Klassifizierungslösung verwendet werden. Im Wesentlichen verwenden Sie Clustering, um die geeigneten Klassen für Ihre Daten zu bestimmen.