microsoftml.n_gram_hash: преобразование текста в признаки с помощью хэшируемых N-грамм
Использование
microsoftml.n_gram_hash(hash_bits: numbers.Real = 16,
ngram_length: numbers.Real = 1, skip_length: numbers.Real = 0,
all_lengths: bool = True, seed: numbers.Real = 314489979,
ordered: bool = True, invert_hash: numbers.Real = 0)
Описание
Извлекает N-граммы из текста и преобразует их в вектор с помощью приема хэширования.
Аргументы
hash_bits
Число битов в результирующем хэше. Должно находиться в диапазоне от 1 до 30 включительно. (параметры).
ngram_length
Длина N-грамм (параметры).
skip_length
Максимальное число токенов, пропускаемых при создании N-грамм (параметры).
all_lengths
Следует ли включать длину всех N-грамм до ngramLength или только ngramLength (параметры).
seed
Начальное значение хэширования (параметры).
упорядоченного
Следует ли включать расположение каждого исходного столбца в хэш (при наличии нескольких исходных столбцов). (параметры).
invert_hash
Ограничение числа ключей, используемых для создания имени слота для этого числа. 0 означает отсутствие инверсии хэширования, -1 означает отсутствие ограничения. (параметры).