Glossar für maschinelles Lernen mit wichtigen Begriffen
Die folgende Liste enthält eine Zusammenstellung wichtiger Begriffe für maschinelles Lernen, die beim Erstellen ihrer benutzerdefinierten Modelle in ML.NET nützlich sind.
Genauigkeit
In Klassifizierungist die Genauigkeit die Anzahl der korrekt klassifizierten Elemente dividiert durch die Gesamtanzahl der Elemente im Testsatz. Reicht von 0 (am wenigsten genau) bis 1 (am genauesten). Genauigkeit ist eine der Auswertungsmetriken der Modellleistung. Betrachten Sie es in Verbindung mit Genauigkeit, Rückrufund F-Score.
Fläche unter der Kurve (AUC)
In binären Klassifizierungeine Auswertungsmetrik, die den Wert der Fläche unter der Kurve darstellt, die die wahre positive Rate (auf der y-Achse) mit der falsch positiven Rate (auf der x-Achse) gezeichnet. Reicht von 0,5 (schlechtesten) bis 1 (am besten). Auch bekannt als Bereich unter der ROC-Kurve, d.h. Empfänger-Betriebskennkurve. Weitere Informationen finden Sie im Empfänger-Betriebsmerkmal Artikel zu Wikipedia.
Binäre Klassifizierung
Eine Klassifizierung Fall, in dem die Bezeichnung nur eine von zwei Klassen ist. Weitere Informationen finden Sie im Abschnitt Binärklassifizierung Abschnitt Machine Learning Tasks Thema.
Kalibrierung
Die Kalibrierung ist der Prozess der Zuordnung eines Rohwerts zu einer Klassenmitgliedschaft für binäre und mehrklassige Klassifizierungen. Einige ML.NET Trainer haben ein NonCalibrated
Suffix. Diese Algorithmen erzeugen eine Rohbewertung, die dann einer Klassenwahrscheinlichkeit zugeordnet werden muss.
Katalog
In ML.NET ist ein Katalog eine Sammlung von Erweiterungsfunktionen, gruppiert nach einem gemeinsamen Zweck.
Beispielsweise verfügt jede Machine Learning-Aufgabe (binäre Klassifizierung, Regression, Rangfolge usw.) über einen Katalog verfügbarer Machine Learning-Algorithmen (Trainer). Der Katalog für die Binärklassifizierungstrainer lautet: BinaryClassificationCatalog.BinaryClassificationTrainers.
Klassifikation
Wenn die Daten verwendet werden, um eine Kategorie vorherzusagen, wird überwachtes maschinelles Lernen Aufgabe als Klassifizierung bezeichnet. Binäre Klassifizierung bezieht sich auf die Vorhersage von nur zwei Kategorien (z. B. das Klassifizieren eines Bilds als Bild einer "Katze" oder eines "Hundes"). Multiklassenklassifizierung bezieht sich auf die Vorhersage mehrerer Kategorien (z. B. beim Klassifizieren eines Bilds als Bild einer bestimmten Rasse des Hundes).
Koeffizienten der Bestimmung
In Regressionsmetrikeine Auswertungsmetrik, die angibt, wie gut Daten zu einem Modell passen. Reicht von 0 bis 1. Ein Wert von 0 bedeutet, dass die Daten zufällig sind oder anderweitig nicht an das Modell angepasst werden können. Der Wert 1 bedeutet, dass das Modell exakt mit den Daten übereinstimmt. Dies wird häufig als r2, R2oder R-Quadrat bezeichnet.
Daten
Daten sind für jede Machine Learning-Anwendung zentral. In ML.NET Daten werden durch IDataView Objekte dargestellt. Datenansichtsobjekte:
- bestehen aus Spalten und Zeilen
- werden lazily ausgewertet, d. a. die Daten werden nur geladen, wenn ein Vorgang dafür aufruft.
- enthält ein Schema, das den Typ, das Format und die Länge jeder Spalte definiert.
Schätzer
Eine Klasse in ML.NET, die die IEstimator<TTransformer> Schnittstelle implementiert.
Eine Schätzung ist eine Spezifikation einer Transformation (sowohl Datenvorbereitungstransformation als auch Machine Learning Model Training Transformation). Schätzer können in eine Pipeline von Transformationen verkettet werden. Die Parameter einer Schätzung oder Pipeline von Schätzern werden gelernt, wenn Fit aufgerufen wird. Das Ergebnis von Fit ist ein Transformator.
Extension-Methode
Eine .NET-Methode, die Teil einer Klasse ist, aber außerhalb der Klasse definiert ist. Der erste Parameter einer Erweiterungsmethode ist ein statischer this
Verweis auf die Klasse, zu der die Erweiterungsmethode gehört.
Erweiterungsmethoden werden in ML.NET umfassend verwendet, um Instanzen von Schätzernzu erstellen.
Merkmal
Eine messbare Eigenschaft des zu messenden Phänomens, in der Regel ein numerischer (doppelter) Wert. Mehrere Features werden als Featurevektor bezeichnet und in der Regel als double[]
gespeichert. Merkmale definieren die wichtigen Merkmale des zu messenden Phänomens. Weitere Informationen finden Sie im Artikel Feature wikipedia.
Feature engineering
Feature engineering ist der Prozess, der das Definieren einer Reihe von Features und die Entwicklung von Software umfasst, die Featurevektoren aus verfügbaren Phänomendaten erzeugt, d. h. Featureextraktion. Weitere Informationen finden Sie im Feature Engineering Artikel zu Wikipedia.
F-Score
In Klassifizierungeine Auswertungsmetrik, die Genauigkeit ausgleicht und zurückruft.
Hyperparameter
Ein Parameter eines Machine Learning-Algorithmus. Beispiele sind die Anzahl der Bäume, die in einer Entscheidungsgesamtstruktur oder der Schrittgröße in einem Farbverlaufsabstiegsalgorithmus zu erlernen sind. Werte von Hyperparametern werden vor dem Trainieren des Modells festgelegt und steuern den Prozess zum Auffinden der Parameter der Vorhersagefunktion, z. B. die Vergleichspunkte in einer Entscheidungsstruktur oder die Gewichtungen in einem linearen Regressionsmodell. Weitere Informationen finden Sie im artikel Hyperparameter auf Wikipedia.
Etikett
Das Element, das mit dem Machine Learning-Modell vorhergesagt werden soll. Zum Beispiel die Rasse des Hundes oder ein zukünftiger Aktienkurs.
Protokollverlust
In Klassifizierungeine Auswertungsmetrik, die die Genauigkeit eines Klassifizierers kennzeichnet. Je kleiner der Protokollverlust ist, desto genauer ist ein Klassifizierer.
Verlustfunktion
Eine Verlustfunktion ist der Unterschied zwischen den Trainingsbezeichnungswerten und der Vorhersage des Modells. Die Parameter des Modells werden geschätzt, indem die Verlustfunktion minimiert wird.
Verschiedene Trainer können mit unterschiedlichen Verlustfunktionen konfiguriert werden.
Mittlerer absoluter Fehler (MAE)
In Regressions-eine Auswertungsmetrik, die den Mittelwert aller Modellfehler darstellt, wobei der Modellfehler der Abstand zwischen dem vorhergesagten Beschriftungswert Wert und dem richtigen Beschriftungswert ist.
Modell
Traditionell werden die Parameter für die Vorhersagefunktion verwendet. Beispielsweise die Gewichtungen in einem linearen Regressionsmodell oder die Geteilten Punkte in einer Entscheidungsstruktur. In ML.NET enthält ein Modell alle Informationen, die erforderlich sind, um die Bezeichnung eines Domänenobjekts (z. B. Bild oder Text) vorherzusagen. Dies bedeutet, dass ML.NET Modelle die erforderlichen Reifungsschritte sowie die Parameter für die Vorhersagefunktion enthalten.
Mehrklassenklassifizierung
Eine Klassifizierung Fall, in dem die Bezeichnung eine von drei oder mehr Klassen ist. Weitere Informationen finden Sie im Abschnitt Mehrklassenklassifizierung Abschnitt Maschinelle Lernaufgaben Thema.
N-Gramm
Ein Featureextraktionsschema für Textdaten: Jede Abfolge von N-Wörtern wird in ein Feature Wert umgewandelt.
Normalisierung
Normalisierung ist der Prozess der Skalierung von Gleitkommadaten auf Werte zwischen 0 und 1. Viele der in ML.NET verwendeten Schulungsalgorithmen erfordern die Normalisierung von Eingabefeaturedaten. ML.NET stellt eine Reihe von Transformationen für die Normalisierung
Numerischer Funktionsvektor
Ein Feature Vektor, der nur aus numerischen Werten besteht. Dies ähnelt double[]
.
Rohrleitung
Alle Vorgänge, die erforderlich sind, um ein Modell an einen Datensatz anzupassen. Eine Pipeline besteht aus Datenimport-, Transformations-, Featurierungs- und Lernschritten. Sobald eine Pipeline trainiert wurde, wird sie in ein Modell umgewandelt.
Präzision
In Klassifizierungist die Genauigkeit für eine Klasse die Anzahl der Elemente, die ordnungsgemäß als Zugehörigkeit zu dieser Klasse angegeben wurden, dividiert durch die Gesamtanzahl der Elemente, die als Zugehörigkeit zur Klasse vorhergesagt wurden.
Rückruf
In Klassifizierungist der Rückruf für eine Klasse die Anzahl der Elemente, die ordnungsgemäß als Zugehörigkeit zu dieser Klasse vorhergesagt wurden, dividiert durch die Gesamtanzahl der Elemente, die tatsächlich zur Klasse gehören.
Regularisierung
Die Regularisierung bestraft ein lineares Modell, weil es zu kompliziert ist. Es gibt zwei Arten von Regularisierung:
- $L_1$ Normalisierung nullen Gewichtungen für unbedeutende Merkmale. Die Größe des gespeicherten Modells wird nach dieser Art der Normalisierung möglicherweise kleiner.
- $L_2$-Regularisierung minimiert den Gewichtsbereich für unbedeutende Features. Dies ist ein allgemeinerer Prozess und ist weniger sensibel für Ausreißer.
Regression
Ein überwachtes maschinelles Lernen Aufgabe, bei der die Ausgabe z. B. ein echter Wert ist, z. B. double. Beispiele hierfür sind die Vorhersage von Aktienkursen. Weitere Informationen finden Sie im Abschnitt Regression abschnitt des Maschinellen Lernens Thema.
Relativer absoluter Fehler
In Regressioneine Auswertungsmetrik, die die Summe aller absoluten Fehler dividiert durch die Summe der Abstände zwischen korrekten Bezeichnungsbezeichnungen Werten und dem Mittelwert aller korrekten Beschriftungswerte.
Relativer Quadratfehler
In Regressioneine Auswertungsmetrik, die die Summe aller quadratischen absoluten Fehler dividiert durch die Summe der quadratischen Abstände zwischen korrekten Beschriftungswerten Werten und dem Mittelwert aller korrekten Beschriftungswerte dividiert.
Wurzel des mittleren Quadratfehlers (RMSE)
In Regressioneine Auswertungsmetrik, die die Quadratwurzel des Mittelwerts der Quadrate der Fehler darstellt.
Vertonung
Die Bewertung ist der Prozess der Anwendung neuer Daten auf ein trainiertes Machine Learning-Modell und das Generieren von Vorhersagen. Die Bewertung wird auch als Ableitung bezeichnet. Je nach Modelltyp kann es sich bei der Bewertung um einen Rohwert, eine Wahrscheinlichkeit oder eine Kategorie handeln.
Überwachtes maschinelles Lernen
Eine Unterklasse des maschinellen Lernens, in der ein gewünschtes Modell die Bezeichnung für noch nicht angezeigte Daten vorhersagt. Beispiele sind Klassifizierung, Regression und strukturierte Vorhersage. Weitere Informationen finden Sie im artikel Beaufsichtigtes Lernen Wikipedia.
Ausbildung
Der Prozess der Identifizierung eines Modells für einen bestimmten Schulungsdatensatz. Bei einem linearen Modell bedeutet dies, die Gewichte zu finden. Bei einer Struktur müssen die geteilten Punkte identifiziert werden.
Transformator
Eine ML.NET Klasse, die die ITransformer Schnittstelle implementiert.
Ein Transformator wandelt eine IDataView in eine andere um. Ein Transformator wird durch Schulung einer Schätzeroder einer Schätzpipeline erstellt.
Unbeaufsichtigtes maschinelles Lernen
Eine Unterklasse des maschinellen Lernens, in der ein gewünschtes Modell ausgeblendete (oder latente) Struktur in Daten findet. Beispiele sind Clustering, Themenmodellierung und Dimensionalitätsreduktion. Weitere Informationen finden Sie im artikel Unbeaufsichtigtes Lernen Wikipedia.