TextFeaturizingEstimator クラス
定義
重要
一部の情報は、リリース前に大きく変更される可能性があるプレリリースされた製品に関するものです。 Microsoft は、ここに記載されている情報について、明示または黙示を問わず、一切保証しません。
テキスト ドキュメントのコレクションを数値特徴ベクトルに変換する推定器。 特徴ベクトルは、指定されたオプションに基づいて、単語または文字 n グラムの正規化されたカウントです。
public sealed class TextFeaturizingEstimator : Microsoft.ML.IEstimator<Microsoft.ML.ITransformer>
type TextFeaturizingEstimator = class
interface IEstimator<ITransformer>
Public NotInheritable Class TextFeaturizingEstimator
Implements IEstimator(Of ITransformer)
- 継承
-
TextFeaturizingEstimator
- 実装
注釈
推定器の特性
この推定器は、パラメーターをトレーニングするためにデータを確認する必要がありますか? | はい。 |
入力列のデータ型 | text |
出力列のデータ型 | Single のベクター |
ONNX にエクスポート可能 | いいえ |
この推定機能により、ユーザーは次のことを行うためのワンストップ ソリューションが提供されます。
- 言語検出
- トークン化
- テキスト正規化
- 定義済みのストップワードとカスタムストップワードの削除
- [Word ベースまたは文字ベースの Ngram 抽出と SkipGram 抽出 (詳細オプションを使用)](https://en.wikipedia.org/wiki/N-gram)
- TF、IDF、または TF-IDF
- [L-p ベクトル正規化](xref: Microsoft.ML.Transforms.LpNormNormalizingTransformer)
既定では、特徴は (単語/文字) n-gram/skip-gram で構成され、特徴の数はデータを分析することによって見つかったボキャブラリ サイズと等しくなります。 生成されたトークンを含む追加の列を出力するには、 OutputTokensColumnName を使用します。 特徴量の数は、 に TextFeaturizingEstimator.Options保持する n グラムの最大数を選択して指定することもできます。ここで、推定器をさらに調整できます。
使用例へのリンクについては、「関連項目」セクションを参照してください。
メソッド
Fit(IDataView) |
をトレーニングして返します ITransformer。 |
GetOutputSchema(SchemaShape) |
SchemaShapeトランスフォーマーによって生成されるスキーマの を返します。 パイプラインでのスキーマの伝達と検証に使用されます。 |
拡張メソッド
AppendCacheCheckpoint<TTrans>(IEstimator<TTrans>, IHostEnvironment) |
推定チェーンに "キャッシュ チェックポイント" を追加します。 これにより、ダウンストリーム推定器がキャッシュされたデータに対してトレーニングされるようになります。 複数のデータ パスを受け取るトレーナーの前にキャッシュ チェックポイントを用意しておくと便利です。 |
WithOnFitDelegate<TTransformer>(IEstimator<TTransformer>, Action<TTransformer>) |
推定器を指定すると、デリゲートが呼び出されると Fit(IDataView) 呼び出されるラップ オブジェクトを返します。 推定器は、多くの場合、適合した内容に関する情報を返すことが重要です。そのため Fit(IDataView) 、メソッドは一般的 ITransformerな ではなく、具体的に型指定されたオブジェクトを返します。 ただし、同時に、 IEstimator<TTransformer> 多くのオブジェクトを含むパイプラインに形成されることが多いため、トランスフォーマーを取得する推定器がこのチェーンのどこかに埋もれている場所を介して EstimatorChain<TLastTransformer> 、推定器のチェーンを構築する必要がある場合があります。 そのシナリオでは、このメソッドを使用して、fit が呼び出されると呼び出されるデリゲートをアタッチできます。 |