rxFeaturize: преобразование данных для источников данных RevoScaleR
Преобразует данные из набора входных данных в набор выходных данных.
Использование
rxFeaturize(data, outData = NULL, overwrite = FALSE, dataThreads = NULL,
randomSeed = NULL, maxSlots = 5000, mlTransforms = NULL,
mlTransformVars = NULL, rowSelection = NULL, transforms = NULL,
transformObjects = NULL, transformFunc = NULL, transformVars = NULL,
transformPackages = NULL, transformEnvir = NULL,
blocksPerRead = rxGetOption("blocksPerRead"),
reportProgress = rxGetOption("reportProgress"), verbose = 1,
computeContext = rxGetOption("computeContext"), ...)
Аргументы
data
Объект источника данных RevoScaleR, кадр данных или путь к файлу .xdf
.
outData
Выходной текст или имя XDF-файла или источника данных RxDataSource
с возможностями записи, в котором необходимо сохранить преобразованные данные. Если указано значение NULL
, то возвращается кадр данных. Значение по умолчанию — NULL
.
overwrite
Если указано значение TRUE
, существующий outData
перезаписывается; если указано значение FALSE
, существующий outData
не перезаписывается. Значение по умолчанию — /codeFALSE.
dataThreads
Целое число, указывающее требуемую степень параллелизма в конвейере данных. Если указано значение NULL
, количество используемых потоков определяется внутренне. Значение по умолчанию — NULL
.
randomSeed
Задает случайное начальное значение. Значение по умолчанию — NULL
.
maxSlots
Максимальное число слотов, возвращаемых для столбцов со значениями вектора (для возврата всех значений укажите значение <=0).
mlTransforms
Указывает список преобразований MicrosoftML, которые необходимо выполнить до обучения, или значение NULL
, если преобразования выполнять не нужно. Сведения о поддерживаемых преобразованиях см. на страницах о функциях featurizeText, categorical и categoricalHash. Эти преобразования выполняются после любых заданных преобразований R. Значение по умолчанию — NULL
.
mlTransformVars
Указывает символьный вектор имен переменных, используемых в mlTransforms
, или значение NULL
, если их не нужно использовать. Значение по умолчанию — NULL
.
rowSelection
Указывает записи (наблюдения) из набора данных, которые будут использоваться моделью с именем логической переменной из набора данных (в кавычках) или логическим выражением с указанием переменных в наборе данных. Например, rowSelection = "old"
будет использовать только те наблюдения, в которых значение переменной old
равно TRUE
.
rowSelection = (age > 20) & (age < 65) & (log(income) > 10)
использует только те наблюдения, в которых значение переменной age
находится в диапазоне от 20 до 65, а значение log
переменной income
больше 10. Выбор записей осуществляется после обработки всех преобразований данных (см. аргументы transforms
или transformFunc
). Как и все выражения, rowSelection
можно определить вне вызова функции с помощью функции выражения.
transforms
Выражение формы list(name = expression, ``...)
, представляющее первый цикл преобразования переменных. Как и все выражения, transforms
(или rowSelection
) можно определить за пределами вызова функции с помощью функции выражения. Значение по умолчанию — NULL
.
transformObjects
Именованный список с объектами, на которые можно ссылаться с помощью transforms
, transformsFunc
и rowSelection
. Значение по умолчанию — NULL
.
transformFunc
Функция преобразования переменной. Дополнительные сведения см. на странице, посвященной rxTransform. По умолчанию используется значение NULL
.
transformVars
Символьный вектор для переменных входного набора данных, требуемый для функции преобразования. Дополнительные сведения см. на странице, посвященной rxTransform. Значение по умолчанию — NULL
.
transformPackages
Символьный вектор, определяющий дополнительные пакеты R (за исключением пакетов, указанных в rxGetOption("transformPackages")
), которые будут доступны и предварительно загружены для использования в функциях преобразования переменных. Например, пакеты, явно определенные в функциях RevoScaleR через аргументы transforms
и transformFunc
или неявно определенные через аргументы formula
или rowSelection
. Аргумент transformPackages
также может иметь значение NULL
, указывающее на то, что пакеты, указанные за пределами rxGetOption("transformPackages")
, не будут предварительно загружаться. Значение по умолчанию — NULL
.
transformEnvir
Определяемая пользователем среда, выступающая в роли родительской среды для всех разработанных внутренних сред и используемая для преобразования данных переменных. Если указано значение transformEnvir = NULL
, используется новая среда hash с родительской средой baseenv()
. Значение по умолчанию — NULL
.
blocksPerRead
Указывает количество считываемых блоков для каждого фрагмента данных, считываемого из источника данных.
reportProgress
Целочисленное значение, указывающее уровень информирования по ходу обработки строки:
-
0
— информирование не осуществляется. -
1
— выводится и обновляется число обработанных записей. -
2
— выводятся данные об обработанных записях и времени обработки. -
3
— выводятся данные об обработанных записях и все данные о времени обработки.
Значение по умолчанию —1
.
verbose
Целочисленное значение, указывающее требуемый объем выходных данных. Если задано значение 0
, при вычислениях подробные выходные данные не выводятся. Целочисленные значения из диапазона от 1
до 4
позволяют увеличить объем информации. Значение по умолчанию — 1
.
computeContext
Задает контекст, в котором выполняются вычисления, указанные с помощью допустимого значения RxComputeContext. Сейчас поддерживаются локальные контексты и контексты вычислений RxInSqlServer.
...
Дополнительные аргументы, передаваемые непосредственно в Microsoft Compute Engine.
Значение
Кадр данных или объект RxDataSource, представляющий созданные выходные данные.
Авторы
Корпорация Майкрософт Microsoft Technical Support
См. также
rxDataStep, rxImport, rxTransform.
Примеры
# rxFeaturize basically allows you to access data from the MicrosoftML transforms
# In this example we'll look at getting the output of the categorical transform
# Create the data
categoricalData <- data.frame(
placesVisited = c(
"London",
"Brunei",
"London",
"Paris",
"Seria"
),
stringsAsFactors = FALSE
)
# Invoke the categorical transform
categorized <- rxFeaturize(
data = categoricalData,
mlTransforms = list(categorical(vars = c(xDataCat = "placesVisited")))
)
# Now let's look at the data
categorized