TextFeaturizingEstimator Clase
Definición
Importante
Parte de la información hace referencia a la versión preliminar del producto, que puede haberse modificado sustancialmente antes de lanzar la versión definitiva. Microsoft no otorga ninguna garantía, explícita o implícita, con respecto a la información proporcionada aquí.
Estimador que convierte una colección de documentos de texto en vectores numéricos de características. Los vectores de características son recuentos normalizados de palabras o caracteres n-gramas (en función de las opciones proporcionadas).
public sealed class TextFeaturizingEstimator : Microsoft.ML.IEstimator<Microsoft.ML.ITransformer>
type TextFeaturizingEstimator = class
interface IEstimator<ITransformer>
Public NotInheritable Class TextFeaturizingEstimator
Implements IEstimator(Of ITransformer)
- Herencia
-
TextFeaturizingEstimator
- Implementaciones
Comentarios
Características del estimador
¿Este estimador necesita examinar los datos para entrenar sus parámetros? | Sí. |
Tipo de datos de columna de entrada | text |
Tipo de datos de columna de salida | Vector de Single |
Exportable a ONNX | No |
Este estimador proporciona a la solución unidirección de usuario para realizar lo siguiente:
- Detección de idiomas
- Tokenización
- Normalización de texto
- Eliminación de palabras irrelevantes predefinidas y personalizadas
- [Word extracción de Ngram basado en caracteres o basado en caracteres y extracción de SkipGram (a través de las opciones avanzadas)](https://en.wikipedia.org/wiki/N-gram)
- TF, IDF o TF-IDF
- [Normalización de vectores L-p] (xref: Microsoft.ML.Transforms.LpNormNormalizingTransformer)
De forma predeterminada, las características se componen de (palabra/carácter) n-gramas/skip-gramos y el número de características son iguales al tamaño del vocabulario encontrado mediante el análisis de los datos. Para generar una columna adicional con los tokens generados, use OutputTokensColumnName. También se puede especificar el número de características seleccionando el número máximo de n-gramas que se mantendrán en TextFeaturizingEstimator.Options, donde se puede ajustar aún más el estimador.
Consulte la sección Consulte también los vínculos a ejemplos de uso.
Métodos
Fit(IDataView) |
Entrena y devuelve un ITransformerobjeto . |
GetOutputSchema(SchemaShape) |
Devuelve el SchemaShape del esquema que generará el transformador. Se usa para la propagación y comprobación del esquema en una canalización. |
Métodos de extensión
AppendCacheCheckpoint<TTrans>(IEstimator<TTrans>, IHostEnvironment) |
Anexe un "punto de control de almacenamiento en caché" a la cadena del estimador. Esto garantizará que los estimadores de bajada se entrenarán con datos almacenados en caché. Resulta útil tener un punto de control de almacenamiento en caché antes de que los instructores tomen varios pases de datos. |
WithOnFitDelegate<TTransformer>(IEstimator<TTransformer>, Action<TTransformer>) |
Dado un estimador, devuelva un objeto de ajuste que llamará a un delegado una vez Fit(IDataView) . A menudo, es importante que un estimador devuelva información sobre lo que cabe, por lo que el Fit(IDataView) método devuelve un objeto con tipo específico, en lugar de simplemente un general ITransformer. Sin embargo, al mismo tiempo, IEstimator<TTransformer> a menudo se forman en canalizaciones con muchos objetos, por lo que es posible que tengamos que crear una cadena de estimadores a través EstimatorChain<TLastTransformer> de donde el estimador para el que queremos obtener el transformador se enterró en algún lugar de esta cadena. En ese escenario, podemos a través de este método adjuntar un delegado al que se llamará una vez que se llame a fit. |