TextFeaturizingEstimator Klasse
Definition
Wichtig
Einige Informationen beziehen sich auf Vorabversionen, die vor dem Release ggf. grundlegend überarbeitet werden. Microsoft übernimmt hinsichtlich der hier bereitgestellten Informationen keine Gewährleistungen, seien sie ausdrücklich oder konkludent.
Ein Schätzer, der eine Sammlung von Textdokumenten in numerische Merkmalsvektoren verwandelt. Die Featurevektoren sind normalisierte Anzahl von Wörtern und/oder Zeichen n-Gramm (basierend auf den angegebenen Optionen).
public sealed class TextFeaturizingEstimator : Microsoft.ML.IEstimator<Microsoft.ML.ITransformer>
type TextFeaturizingEstimator = class
interface IEstimator<ITransformer>
Public NotInheritable Class TextFeaturizingEstimator
Implements IEstimator(Of ITransformer)
- Vererbung
-
TextFeaturizingEstimator
- Implementiert
Hinweise
Estimator-Merkmale
Muss sich dieser Schätzer die Daten ansehen, um seine Parameter zu trainieren? | Ja. |
Datentyp der Eingabespalte | text |
Datentyp der Ausgabespalte | Vektor von Single |
Exportierbar nach ONNX | No |
Dieser Schätzer bietet dem Benutzer eine zentrale Lösung für folgendes:
- Spracherkennung
- Tokenisierung
- Textnormalisierung
- Vordefiniertes und benutzerdefiniertes Entfernen von Stoppwörtern
- [Word- oder zeichenbasierte Ngramextraktion und SkipGram-Extraktion (über die erweiterten Optionen)](https://en.wikipedia.org/wiki/N-gram)
- TF, IDF oder TF-IDF
- [L-p-Vektornormalisierung] (xref: Microsoft.ML.Transforms.LpNormNormalizingTransformer)
Standardmäßig bestehen die Features aus (Wort/Zeichen) n-gramm/skip-gramm, und die Anzahl der Features entspricht der Vokabulargröße, die bei der Analyse der Daten gefunden wurde. Verwenden Sie OutputTokensColumnName, um eine zusätzliche Spalte mit den generierten Token auszugeben. Die Anzahl der Features kann auch angegeben werden, indem Sie die maximale Anzahl von n-Gramm auswählen, die TextFeaturizingEstimator.Optionsin beibehalten werden soll, wobei der Schätzer weiter optimiert werden kann.
Im Abschnitt Siehe auch finden Sie Links zu Verwendungsbeispielen.
Methoden
Fit(IDataView) |
Trainiert und gibt zurück ITransformer. |
GetOutputSchema(SchemaShape) |
Gibt den des SchemaShape Schemas zurück, das vom Transformator erzeugt wird. Wird für die Schemaweitergabe und -überprüfung in einer Pipeline verwendet. |
Erweiterungsmethoden
AppendCacheCheckpoint<TTrans>(IEstimator<TTrans>, IHostEnvironment) |
Fügen Sie einen "Zwischenspeicherungsprüfpunkt" an die Schätzerkette an. Dadurch wird sichergestellt, dass die nachgeschalteten Schätzer mit zwischengespeicherten Daten trainiert werden. Es ist hilfreich, vor Trainern, die mehrere Datendurchläufe durchführen, einen Zwischenspeicherungsprüfpunkt zu verwenden. |
WithOnFitDelegate<TTransformer>(IEstimator<TTransformer>, Action<TTransformer>) |
Geben Sie bei einer Schätzung ein Wrapping-Objekt zurück, das einen Delegaten aufruft, sobald Fit(IDataView) aufgerufen wird. Es ist häufig wichtig, dass ein Schätzer Informationen darüber zurückgibt, was geeignet ist, weshalb die Fit(IDataView) -Methode ein spezifisch typisiertes -Objekt und nicht nur ein allgemeines ITransformerzurückgibt. Zur gleichen Zeit IEstimator<TTransformer> werden jedoch häufig Pipelines mit vielen Objekten gebildet, sodass wir möglicherweise eine Kette von Schätzern erstellen müssen, über EstimatorChain<TLastTransformer> die der Schätzer, für den wir den Transformator erhalten möchten, irgendwo in dieser Kette vergraben ist. Für dieses Szenario können wir über diese Methode einen Delegaten anfügen, der aufgerufen wird, sobald fit aufgerufen wird. |