ngram : extracteurs de caractéristiques Machine Learning
Extracteurs de caractéristiques qui peuvent être utilisés avec mtText.
Utilisation
ngramCount(ngramLength = 1, skipLength = 0, maxNumTerms = 1e+07,
weighting = "tf")
ngramHash(ngramLength = 1, skipLength = 0, hashBits = 16,
seed = 314489979, ordered = TRUE, invertHash = 0)
Arguments
ngramLength
Entier qui spécifie le nombre maximal de jetons à prendre lors de la construction d’un n-gramme. La valeur par défaut est 1.
skipLength
Entier qui spécifie le nombre maximal de jetons à sauter lors de la construction d’un n-gramme. Si la valeur spécifiée comme longueur à ignorer est k
, les n-grammes peuvent contenir jusqu’à k sauts (pas nécessairement consécutifs). Par exemple, si k=2
, alors les 3-grammes extraits du texte « the sky is blue today » sont : « the sky is », « the sky blue », « the sky today », « the is blue », « the is today » et « the blue today ». La valeur par défaut est 0.
maxNumTerms
Entier qui spécifie le nombre maximum de catégories à inclure dans le dictionnaire. La valeur par défaut est 10000000.
weighting
Chaîne de caractères qui spécifie les critères de pondération :
-
"tf"
: pour utiliser la fréquence des termes. -
"idf"
: pour utiliser la fréquence de document inverse. -
"tfidf"
: pour utiliser à la fois la fréquence des termes et la fréquence de document inverse.
hashBits
Valeur de type entier. Nombre de bits à hacher. Doit être compris entre 1 et 30 (inclus).
seed
Valeur de type entier. Seed de hachage.
ordered
TRUE
pour inclure la position de chaque terme dans le hachage. Sinon, FALSE
. La valeur par défaut est TRUE
.
invertHash
Entier indiquant la limite du nombre de clés permettant de générer le nom de l’emplacement.
0
signifie aucun hachage inversé ; -1
signifie aucune limite. Bien qu’une valeur nulle produise de meilleures performances, une valeur différente de zéro est nécessaire pour obtenir des noms de coefficients significatifs.
Détails
ngramCount
permet de définir des arguments pour les extractions de fonctionnalités basées sur le nombre. Il accepte les options suivantes : ngramLength
, skipLength
, maxNumTerms
et weighting
.
ngramHash
permet de définir des arguments pour l’extraction de caractéristiques basée sur le hachage. Il accepte les options suivantes : ngramLength
, skipLength
, hashBits
, seed
, ordered
et invertHash
.
Valeur
Chaîne de caractères définissant la transformation.
Auteur(s)
Microsoft Corporation Microsoft Technical Support
Voir aussi
Exemples
myData <- data.frame(opinion = c(
"I love it!",
"I love it!",
"Love it!",
"I love it a lot!",
"Really love it!",
"I hate it",
"I hate it",
"I hate it.",
"Hate it",
"Hate"),
like = rep(c(TRUE, FALSE), each = 5),
stringsAsFactors = FALSE)
outModel1 <- rxLogisticRegression(like~opinionCount, data = myData,
mlTransforms = list(featurizeText(vars = c(opinionCount = "opinion"),
wordFeatureExtractor = ngramHash(invertHash = -1, hashBits = 3))))
summary(outModel1)
outModel2 <- rxLogisticRegression(like~opinionCount, data = myData,
mlTransforms = list(featurizeText(vars = c(opinionCount = "opinion"),
wordFeatureExtractor = ngramCount(maxNumTerms = 5, weighting = "tf"))))
summary(outModel2)