Glossar für maschinelles Lernen mit wichtigen Begriffen

Artikel
12/21/2024

Die folgende Liste enthält eine Zusammenstellung wichtiger Begriffe für maschinelles Lernen, die beim Erstellen ihrer benutzerdefinierten Modelle in ML.NET nützlich sind.

Genauigkeit

In Klassifizierungist die Genauigkeit die Anzahl der korrekt klassifizierten Elemente dividiert durch die Gesamtanzahl der Elemente im Testsatz. Reicht von 0 (am wenigsten genau) bis 1 (am genauesten). Genauigkeit ist eine der Auswertungsmetriken der Modellleistung. Betrachten Sie es in Verbindung mit Genauigkeit, Rückrufund F-Score.

Fläche unter der Kurve (AUC)

In binären Klassifizierungeine Auswertungsmetrik, die den Wert der Fläche unter der Kurve darstellt, die die wahre positive Rate (auf der y-Achse) mit der falsch positiven Rate (auf der x-Achse) gezeichnet. Reicht von 0,5 (schlechtesten) bis 1 (am besten). Auch bekannt als Bereich unter der ROC-Kurve, d.h. Empfänger-Betriebskennkurve. Weitere Informationen finden Sie im Empfänger-Betriebsmerkmal Artikel zu Wikipedia.

Binäre Klassifizierung

Eine Klassifizierung Fall, in dem die Bezeichnung nur eine von zwei Klassen ist. Weitere Informationen finden Sie im Abschnitt Binärklassifizierung Abschnitt Machine Learning Tasks Thema.

Kalibrierung

Die Kalibrierung ist der Prozess der Zuordnung eines Rohwerts zu einer Klassenmitgliedschaft für binäre und mehrklassige Klassifizierungen. Einige ML.NET Trainer haben ein NonCalibrated Suffix. Diese Algorithmen erzeugen eine Rohbewertung, die dann einer Klassenwahrscheinlichkeit zugeordnet werden muss.

Katalog

In ML.NET ist ein Katalog eine Sammlung von Erweiterungsfunktionen, gruppiert nach einem gemeinsamen Zweck.

Beispielsweise verfügt jede Machine Learning-Aufgabe (binäre Klassifizierung, Regression, Rangfolge usw.) über einen Katalog verfügbarer Machine Learning-Algorithmen (Trainer). Der Katalog für die Binärklassifizierungstrainer lautet: BinaryClassificationCatalog.BinaryClassificationTrainers.

Klassifikation

Wenn die Daten verwendet werden, um eine Kategorie vorherzusagen, wird überwachtes maschinelles Lernen Aufgabe als Klassifizierung bezeichnet. Binäre Klassifizierung bezieht sich auf die Vorhersage von nur zwei Kategorien (z. B. das Klassifizieren eines Bilds als Bild einer "Katze" oder eines "Hundes"). Multiklassenklassifizierung bezieht sich auf die Vorhersage mehrerer Kategorien (z. B. beim Klassifizieren eines Bilds als Bild einer bestimmten Rasse des Hundes).

Koeffizienten der Bestimmung

In Regressionsmetrikeine Auswertungsmetrik, die angibt, wie gut Daten zu einem Modell passen. Reicht von 0 bis 1. Ein Wert von 0 bedeutet, dass die Daten zufällig sind oder anderweitig nicht an das Modell angepasst werden können. Der Wert 1 bedeutet, dass das Modell exakt mit den Daten übereinstimmt. Dies wird häufig als r², R²oder R-Quadrat bezeichnet.

Daten

Daten sind für jede Machine Learning-Anwendung zentral. In ML.NET Daten werden durch IDataView Objekte dargestellt. Datenansichtsobjekte:

bestehen aus Spalten und Zeilen
werden lazily ausgewertet, d. a. die Daten werden nur geladen, wenn ein Vorgang dafür aufruft.
enthält ein Schema, das den Typ, das Format und die Länge jeder Spalte definiert.

Schätzer

Eine Klasse in ML.NET, die die IEstimator<TTransformer> Schnittstelle implementiert.

Eine Schätzung ist eine Spezifikation einer Transformation (sowohl Datenvorbereitungstransformation als auch Machine Learning Model Training Transformation). Schätzer können in eine Pipeline von Transformationen verkettet werden. Die Parameter einer Schätzung oder Pipeline von Schätzern werden gelernt, wenn Fit aufgerufen wird. Das Ergebnis von Fit ist ein Transformator.

Extension-Methode

Eine .NET-Methode, die Teil einer Klasse ist, aber außerhalb der Klasse definiert ist. Der erste Parameter einer Erweiterungsmethode ist ein statischer this Verweis auf die Klasse, zu der die Erweiterungsmethode gehört.

Erweiterungsmethoden werden in ML.NET umfassend verwendet, um Instanzen von Schätzernzu erstellen.

Merkmal

Eine messbare Eigenschaft des zu messenden Phänomens, in der Regel ein numerischer (doppelter) Wert. Mehrere Features werden als Featurevektor bezeichnet und in der Regel als double[]gespeichert. Merkmale definieren die wichtigen Merkmale des zu messenden Phänomens. Weitere Informationen finden Sie im Artikel Feature wikipedia.

Feature engineering

Feature engineering ist der Prozess, der das Definieren einer Reihe von Features und die Entwicklung von Software umfasst, die Featurevektoren aus verfügbaren Phänomendaten erzeugt, d. h. Featureextraktion. Weitere Informationen finden Sie im Feature Engineering Artikel zu Wikipedia.

F-Score

In Klassifizierungeine Auswertungsmetrik, die Genauigkeit ausgleicht und zurückruft.

Hyperparameter

Ein Parameter eines Machine Learning-Algorithmus. Beispiele sind die Anzahl der Bäume, die in einer Entscheidungsgesamtstruktur oder der Schrittgröße in einem Farbverlaufsabstiegsalgorithmus zu erlernen sind. Werte von Hyperparametern werden vor dem Trainieren des Modells festgelegt und steuern den Prozess zum Auffinden der Parameter der Vorhersagefunktion, z. B. die Vergleichspunkte in einer Entscheidungsstruktur oder die Gewichtungen in einem linearen Regressionsmodell. Weitere Informationen finden Sie im artikel Hyperparameter auf Wikipedia.

Etikett

Das Element, das mit dem Machine Learning-Modell vorhergesagt werden soll. Zum Beispiel die Rasse des Hundes oder ein zukünftiger Aktienkurs.

Protokollverlust

In Klassifizierungeine Auswertungsmetrik, die die Genauigkeit eines Klassifizierers kennzeichnet. Je kleiner der Protokollverlust ist, desto genauer ist ein Klassifizierer.

Verlustfunktion

Eine Verlustfunktion ist der Unterschied zwischen den Trainingsbezeichnungswerten und der Vorhersage des Modells. Die Parameter des Modells werden geschätzt, indem die Verlustfunktion minimiert wird.

Verschiedene Trainer können mit unterschiedlichen Verlustfunktionen konfiguriert werden.

Mittlerer absoluter Fehler (MAE)

In Regressions-eine Auswertungsmetrik, die den Mittelwert aller Modellfehler darstellt, wobei der Modellfehler der Abstand zwischen dem vorhergesagten Beschriftungswert Wert und dem richtigen Beschriftungswert ist.

Modell

Traditionell werden die Parameter für die Vorhersagefunktion verwendet. Beispielsweise die Gewichtungen in einem linearen Regressionsmodell oder die Geteilten Punkte in einer Entscheidungsstruktur. In ML.NET enthält ein Modell alle Informationen, die erforderlich sind, um die Bezeichnung eines Domänenobjekts (z. B. Bild oder Text) vorherzusagen. Dies bedeutet, dass ML.NET Modelle die erforderlichen Reifungsschritte sowie die Parameter für die Vorhersagefunktion enthalten.

Mehrklassenklassifizierung

Eine Klassifizierung Fall, in dem die Bezeichnung eine von drei oder mehr Klassen ist. Weitere Informationen finden Sie im Abschnitt Mehrklassenklassifizierung Abschnitt Maschinelle Lernaufgaben Thema.

N-Gramm

Ein Featureextraktionsschema für Textdaten: Jede Abfolge von N-Wörtern wird in ein Feature Wert umgewandelt.

Normalisierung

Normalisierung ist der Prozess der Skalierung von Gleitkommadaten auf Werte zwischen 0 und 1. Viele der in ML.NET verwendeten Schulungsalgorithmen erfordern die Normalisierung von Eingabefeaturedaten. ML.NET stellt eine Reihe von Transformationen für die Normalisierung

Numerischer Funktionsvektor

Ein Feature Vektor, der nur aus numerischen Werten besteht. Dies ähnelt double[].

Rohrleitung

Alle Vorgänge, die erforderlich sind, um ein Modell an einen Datensatz anzupassen. Eine Pipeline besteht aus Datenimport-, Transformations-, Featurierungs- und Lernschritten. Sobald eine Pipeline trainiert wurde, wird sie in ein Modell umgewandelt.

Präzision

In Klassifizierungist die Genauigkeit für eine Klasse die Anzahl der Elemente, die ordnungsgemäß als Zugehörigkeit zu dieser Klasse angegeben wurden, dividiert durch die Gesamtanzahl der Elemente, die als Zugehörigkeit zur Klasse vorhergesagt wurden.

Rückruf

In Klassifizierungist der Rückruf für eine Klasse die Anzahl der Elemente, die ordnungsgemäß als Zugehörigkeit zu dieser Klasse vorhergesagt wurden, dividiert durch die Gesamtanzahl der Elemente, die tatsächlich zur Klasse gehören.

Regularisierung

Die Regularisierung bestraft ein lineares Modell, weil es zu kompliziert ist. Es gibt zwei Arten von Regularisierung:

$L_1$ Normalisierung nullen Gewichtungen für unbedeutende Merkmale. Die Größe des gespeicherten Modells wird nach dieser Art der Normalisierung möglicherweise kleiner.
$L_2$-Regularisierung minimiert den Gewichtsbereich für unbedeutende Features. Dies ist ein allgemeinerer Prozess und ist weniger sensibel für Ausreißer.

Regression

Ein überwachtes maschinelles Lernen Aufgabe, bei der die Ausgabe z. B. ein echter Wert ist, z. B. double. Beispiele hierfür sind die Vorhersage von Aktienkursen. Weitere Informationen finden Sie im Abschnitt Regression abschnitt des Maschinellen Lernens Thema.

Relativer absoluter Fehler

In Regressioneine Auswertungsmetrik, die die Summe aller absoluten Fehler dividiert durch die Summe der Abstände zwischen korrekten Bezeichnungsbezeichnungen Werten und dem Mittelwert aller korrekten Beschriftungswerte.

Relativer Quadratfehler

In Regressioneine Auswertungsmetrik, die die Summe aller quadratischen absoluten Fehler dividiert durch die Summe der quadratischen Abstände zwischen korrekten Beschriftungswerten Werten und dem Mittelwert aller korrekten Beschriftungswerte dividiert.

Wurzel des mittleren Quadratfehlers (RMSE)

In Regressioneine Auswertungsmetrik, die die Quadratwurzel des Mittelwerts der Quadrate der Fehler darstellt.

Vertonung

Die Bewertung ist der Prozess der Anwendung neuer Daten auf ein trainiertes Machine Learning-Modell und das Generieren von Vorhersagen. Die Bewertung wird auch als Ableitung bezeichnet. Je nach Modelltyp kann es sich bei der Bewertung um einen Rohwert, eine Wahrscheinlichkeit oder eine Kategorie handeln.

Überwachtes maschinelles Lernen

Eine Unterklasse des maschinellen Lernens, in der ein gewünschtes Modell die Bezeichnung für noch nicht angezeigte Daten vorhersagt. Beispiele sind Klassifizierung, Regression und strukturierte Vorhersage. Weitere Informationen finden Sie im artikel Beaufsichtigtes Lernen Wikipedia.

Ausbildung

Der Prozess der Identifizierung eines Modells für einen bestimmten Schulungsdatensatz. Bei einem linearen Modell bedeutet dies, die Gewichte zu finden. Bei einer Struktur müssen die geteilten Punkte identifiziert werden.

Transformator

Eine ML.NET Klasse, die die ITransformer Schnittstelle implementiert.

Ein Transformator wandelt eine IDataView in eine andere um. Ein Transformator wird durch Schulung einer Schätzeroder einer Schätzpipeline erstellt.

Unbeaufsichtigtes maschinelles Lernen

Eine Unterklasse des maschinellen Lernens, in der ein gewünschtes Modell ausgeblendete (oder latente) Struktur in Daten findet. Beispiele sind Clustering, Themenmodellierung und Dimensionalitätsreduktion. Weitere Informationen finden Sie im artikel Unbeaufsichtigtes Lernen Wikipedia.

Freigeben über