Поделиться через


microsoftml.n_gram_hash: преобразование текста в признаки с помощью хэшируемых N-грамм

Использование

microsoftml.n_gram_hash(hash_bits: numbers.Real = 16,
    ngram_length: numbers.Real = 1, skip_length: numbers.Real = 0,
    all_lengths: bool = True, seed: numbers.Real = 314489979,
    ordered: bool = True, invert_hash: numbers.Real = 0)

Описание

Извлекает N-граммы из текста и преобразует их в вектор с помощью приема хэширования.

Аргументы

hash_bits

Число битов в результирующем хэше. Должно находиться в диапазоне от 1 до 30 включительно. (параметры).

ngram_length

Длина N-грамм (параметры).

skip_length

Максимальное число токенов, пропускаемых при создании N-грамм (параметры).

all_lengths

Следует ли включать длину всех N-грамм до ngramLength или только ngramLength (параметры).

seed

Начальное значение хэширования (параметры).

упорядоченного

Следует ли включать расположение каждого исходного столбца в хэш (при наличии нескольких исходных столбцов). (параметры).

invert_hash

Ограничение числа ключей, используемых для создания имени слота для этого числа. 0 означает отсутствие инверсии хэширования, -1 означает отсутствие ограничения. (параметры).

См. также

n_gram, featurize_text