rxFeaturize: trasformazione dei dati per origini dati RevoScaleR
Trasforma i dati da un set di dati di input a un set di dati di output.
Utilizzo
rxFeaturize(data, outData = NULL, overwrite = FALSE, dataThreads = NULL,
randomSeed = NULL, maxSlots = 5000, mlTransforms = NULL,
mlTransformVars = NULL, rowSelection = NULL, transforms = NULL,
transformObjects = NULL, transformFunc = NULL, transformVars = NULL,
transformPackages = NULL, transformEnvir = NULL,
blocksPerRead = rxGetOption("blocksPerRead"),
reportProgress = rxGetOption("reportProgress"), verbose = 1,
computeContext = rxGetOption("computeContext"), ...)
Arguments
data
Oggetto dell'origine dati RevoScaleR, frame di dati o percorso di un file .xdf
.
outData
Testo di output o nome del file xdf o RxDataSource
con funzionalità di scrittura in cui archiviare i dati trasformati. Se NULL
, viene restituito un frame di dati. Il valore predefinito è NULL
.
overwrite
Se TRUE
, un valore di outData
esistente viene sovrascritto; se FALSE
, un valore di outData
esistente non viene sovrascritto. Il valore predefinito è /codeFALSE.
dataThreads
Numero intero che specifica il grado di parallelismo desiderato nella pipeline di dati. Se NULL
, il numero di thread usati viene determinato internamente. Il valore predefinito è NULL
.
randomSeed
Specifica il valore di inizializzazione casuale. Il valore predefinito è NULL
.
maxSlots
Numero massimo di slot da restituire per le colonne con valori vettoriali (<=0 per restituirli tutti).
mlTransforms
Specifica un elenco di trasformazioni di MicrosoftML da eseguire sui dati prima del training o NULL
se non devono essere eseguite trasformazioni. Per informazioni sulle trasformazioni supportate, vedere featurizeText, categorical e categoricalHash. Queste trasformazioni vengono eseguite dopo eventuali trasformazioni R specificate. Il valore predefinito è NULL
.
mlTransformVars
Specifica un vettore di caratteri di nomi di variabili da usare in mlTransforms
o NULL
se non è necessario usarne alcuno. Il valore predefinito è NULL
.
rowSelection
Specifica le righe (osservazioni) dal set di dati che devono essere usate dal modello con il nome di una variabile logica dal set di dati (tra virgolette) o con un'espressione logica tramite variabili nel set di dati. Ad esempio, rowSelection = "old"
userà solo osservazioni in cui il valore della variabile old
è TRUE
.
rowSelection = (age > 20) & (age < 65) & (log(income) > 10)
usa solo osservazioni in cui il valore della variabile age
è compreso tra 20 e 65 e il valore di log
della variabile income
è maggiore di 10. La selezione delle righe viene eseguita dopo l'elaborazione di eventuali trasformazioni dei dati. Vedere gli argomenti transforms
o transformFunc
. Analogamente a tutte le espressioni, è possibile definire rowSelection
all'esterno della chiamata alla funzione usando la funzione di espressione.
transforms
Espressione con formato list(name = expression, ``...)
che rappresenta il primo ciclo di trasformazioni delle variabili. Analogamente a tutte le espressioni, è possibile definire transforms
o rowSelection
all'esterno della chiamata alla funzione usando la funzione di espressione. Il valore predefinito è NULL
.
transformObjects
Elenco denominato che contiene oggetti a cui transforms
, transformsFunc
e rowSelection
possono fare riferimento. Il valore predefinito è NULL
.
transformFunc
Funzione di trasformazione della variabile. Per informazioni dettagliate, vedere rxTransform. Il valore predefinito è NULL
.
transformVars
Vettore di caratteri delle variabili del set di dati di input necessario per la funzione di trasformazione. Per informazioni dettagliate, vedere rxTransform. Il valore predefinito è NULL
.
transformPackages
Vettore di caratteri che specifica altri pacchetti R, oltre a quelli specificati in rxGetOption("transformPackages")
, da rendere disponibili e precaricati per l'uso nelle funzioni di trasformazione delle variabili. Ad esempio, quelli definiti in modo esplicito nelle funzioni RevoScaleR tramite i relativi argomenti transforms
e transformFunc
o quelli definiti in modo implicito tramite i relativi argomenti formula
o rowSelection
. L'argomento transformPackages
può anche essere NULL
, che indica che non vengono precaricati pacchetti esterni a rxGetOption("transformPackages")
. Il valore predefinito è NULL
.
transformEnvir
Ambiente definito dall'utente da usare come elemento padre di tutti gli ambienti sviluppati internamente e usati per la trasformazione dei dati delle variabili. Se transformEnvir = NULL
, viene invece usato un nuovo ambiente "hash" con padre baseenv()
. Il valore predefinito è NULL
.
blocksPerRead
Specifica il numero di blocchi da leggere per ogni blocco di dati letto dall'origine dati.
reportProgress
Valore intero che specifica il livello di creazione di report sullo stato di elaborazione delle righe:
-
0
: non viene segnalato alcun avanzamento. -
1
: il numero di righe elaborate viene stampato e aggiornato. -
2
: vengono segnalate le righe elaborate e le tempistiche. -
3
: vengono segnalate le righe elaborate e tutte le tempistiche.
Il valore predefinito è1
.
verbose
Valore intero che specifica la quantità di output desiderata. Se 0
, non viene stampato alcun output dettagliato durante i calcoli. Valori interi da 1
a 4
per fornire quantità crescenti di informazioni. Il valore predefinito è 1
.
computeContext
Imposta il contesto in cui vengono eseguiti i calcoli, specificato con un RxComputeContext valido. Sono attualmente supportati contesti di calcolo locali e RxInSqlServer.
...
Argomenti aggiuntivi da passare direttamente al motore di calcolo Microsoft.
Valore
Frame di dati oppure oggetto RxDataSource rappresentativo dei dati di output creati.
Autore/i
Microsoft Corporation Microsoft Technical Support
Vedi anche
rxDataStep, rxImport, rxTransform.
Esempi
# rxFeaturize basically allows you to access data from the MicrosoftML transforms
# In this example we'll look at getting the output of the categorical transform
# Create the data
categoricalData <- data.frame(
placesVisited = c(
"London",
"Brunei",
"London",
"Paris",
"Seria"
),
stringsAsFactors = FALSE
)
# Invoke the categorical transform
categorized <- rxFeaturize(
data = categoricalData,
mlTransforms = list(categorical(vars = c(xDataCat = "placesVisited")))
)
# Now let's look at the data
categorized