rxFeaturize : transformation des données pour les sources de données RevoScaleR
Transforme les données d’un jeu de données d’entrée en jeu de données de sortie.
Utilisation
rxFeaturize(data, outData = NULL, overwrite = FALSE, dataThreads = NULL,
randomSeed = NULL, maxSlots = 5000, mlTransforms = NULL,
mlTransformVars = NULL, rowSelection = NULL, transforms = NULL,
transformObjects = NULL, transformFunc = NULL, transformVars = NULL,
transformPackages = NULL, transformEnvir = NULL,
blocksPerRead = rxGetOption("blocksPerRead"),
reportProgress = rxGetOption("reportProgress"), verbose = 1,
computeContext = rxGetOption("computeContext"), ...)
Arguments
data
Un objet source de données RevoScaleR, une trame de données ou le chemin d’accès à un fichier .xdf
.
outData
Texte de sortie ou nom de fichier XDF ou un RxDataSource
avec des fonctionnalités d’écriture pour stocker les données transformées. Si le résultat est NULL
, une trame de données est retournée. La valeur par défaut est NULL
.
overwrite
Si TRUE
, outData
existant est écrasé. Si FALSE
, outData
existant n’est pas remplacé. La valeur par défaut est /codeFALSE.
dataThreads
Entier spécifiant le degré de parallélisme souhaité dans le pipeline de données. Si NULL
valeur n’est définie, le nombre de threads utilisés est déterminé en interne. La valeur par défaut est NULL
.
randomSeed
Spécifie la valeur de départ aléatoire. La valeur par défaut est NULL
.
maxSlots
Nombre maximal d’emplacements à retourner pour les colonnes à valeur vectorielle (<=0 pour retourner tout).
mlTransforms
Spécifie la liste des transformations MicrosoftML à effectuer sur les données avant l’entraînement, ou NULL
si aucune transformation ne doit être effectuée. Consultez featurizeText, categorical et categoricalHash pour les transformations prises en charge. Ces transformations sont effectuées après les transformations R spécifiées. La valeur par défaut est NULL
.
mlTransformVars
Spécifie un vecteur de caractères des noms de variables à utiliser dans mlTransforms
ou NULL
si aucun ne doit être utilisé. La valeur par défaut est NULL
.
rowSelection
Spécifie les lignes (observations) du jeu de données qui doivent être utilisées par le modèle avec le nom d’une variable logique du jeu de données (entre guillemets) ou avec une expression logique utilisant des variables dans le jeu de données. Par exemple, rowSelection = "old"
utilise uniquement les observations dans lesquelles la valeur de la variable old
est TRUE
. rowSelection = (age > 20) & (age < 65) & (log(income) > 10)
utilise uniquement les observations dans lesquelles la valeur de la variable age
est comprise entre 20 et 65, et la valeur log
de la variable income
est supérieure à 10. La sélection de ligne est effectuée après le traitement de toutes les transformations de données (consultez les arguments transforms
ou transformFunc
). Comme pour toutes les expressions, rowSelection
peut être défini en dehors de l’appel de fonction à l’aide de la fonction d’expression.
transforms
Expression de la forme list(name = expression, ``...)
qui représente la première série de transformations de variables. Comme pour toutes les expressions, transforms
(ou rowSelection
) peut être défini en dehors de l’appel de fonction à l’aide de la fonction d’expression. La valeur par défaut est NULL
.
transformObjects
Liste nommée qui contient des objets qui peuvent être référencés par transforms
, transformsFunc
et rowSelection
. La valeur par défaut est NULL
.
transformFunc
Fonction de transformation de variables. Pour plus d’informations, consultez rxTransform. La valeur par défaut est NULL
.
transformVars
Vecteur de caractère des variables de jeu de données d’entrée nécessaires pour la fonction de transformation. Pour plus d’informations, consultez rxTransform. La valeur par défaut est NULL
.
transformPackages
Vecteur de caractères spécifiant les packages R supplémentaires (en dehors de ceux spécifiés dans rxGetOption("transformPackages")
) qui doivent être mis à disposition et préchargés pour être utilisés dans les fonctions de transformation de variables. Par exemple, ceux définis explicitement dans les fonctions RevoScaleR via leurs arguments transforms
et transformFunc
ou ceux définis implicitement via leurs arguments formula
ou rowSelection
. L’argument transformPackages
peut également être NULL
, ce qui indique qu’aucun package n’est préchargé en dehors de rxGetOption("transformPackages")
. La valeur par défaut est NULL
.
transformEnvir
Environnement défini par l’utilisateur qui sert de parent à tous les environnements développés en interne et qui est utilisé pour la transformation de données variables. Si transformEnvir = NULL
, un nouvel environnement de « hachage » avec le parent baseenv()
est utilisé à la place. La valeur par défaut est NULL
.
blocksPerRead
Spécifie le nombre de blocs à lire pour chaque segment de données lu à partir de la source de données.
reportProgress
Valeur entière qui spécifie le niveau de création de rapports sur la progression du traitement de la ligne :
0
: aucune progression n’est signalée.1
: le nombre de lignes traitées est imprimé et mis à jour.2
: les lignes traitées et les minutages sont signalés.3
: les lignes traitées et l’ensemble des minutages sont signalés.
La valeur par défaut est1
.
verbose
Valeur entière qui spécifie la quantité de sortie souhaitée. Si la valeur est 0
, aucune sortie détaillée n’est imprimée au cours des calculs. Les valeurs entières de 1
à 4
fournissent des quantités d’informations croissantes. La valeur par défaut est 1
.
computeContext
Définit le contexte dans lequel les calculs sont exécutés, spécifiés avec un contexte RxComputeContext valide. Actuellement, les contextes de calcul locaux et RxInSqlServer sont pris en charge.
...
Arguments supplémentaires à passer directement au moteur de calcul Microsoft.
Valeur
Une trame de données ou un objet RxDataSource qui représente les données de sortie créées.
Auteur(s)
Microsoft Corporation Microsoft Technical Support
Voir aussi
rxDataStep, rxImport, rxTransform.
Exemples
# rxFeaturize basically allows you to access data from the MicrosoftML transforms
# In this example we'll look at getting the output of the categorical transform
# Create the data
categoricalData <- data.frame(
placesVisited = c(
"London",
"Brunei",
"London",
"Paris",
"Seria"
),
stringsAsFactors = FALSE
)
# Invoke the categorical transform
categorized <- rxFeaturize(
data = categoricalData,
mlTransforms = list(categorical(vars = c(xDataCat = "placesVisited")))
)
# Now let's look at the data
categorized