microsoftml.n_gram_hash:使用雜湊 n-gram 將文字轉換成特徵
使用方式
microsoftml.n_gram_hash(hash_bits: numbers.Real = 16,
ngram_length: numbers.Real = 1, skip_length: numbers.Real = 0,
all_lengths: bool = True, seed: numbers.Real = 314489979,
ordered: bool = True, invert_hash: numbers.Real = 0)
Description
從文字中擷取 NGram,並使用雜湊技巧將其轉換成向量。
引數
hash_bits
要雜湊處理的位元數目。 必須介於 1 到 30 (含) 之間。 (設定)。
ngram_length
Ngram 長度 (設定)。
skip_length
建構 ngram 時所要略過的 Token 數目上限 (設定)。
all_lengths
是否包括最多達到 ngramLength 的所有 ngram 長度,還是只包括 ngramLength (設定)。
seed
雜湊種子 (設定)。
排序
每個來源資料行的位置是否應該包含在雜湊中 (當有多個來源資料行時)。 (設定)。
invert_hash
將用來產生詞槽名稱的索引鍵數目限制為此數目。 0 表示沒有反轉雜湊;-1 表示沒有限制。 (設定)。