rxLogisticRegression: логистическая регрессия
Машинное обучение: логистическая регрессия
Использование
rxLogisticRegression(formula = NULL, data, type = c("binary", "multiClass"),
l2Weight = 1, l1Weight = 1, optTol = 1e-07, memorySize = 20,
initWtsScale = 0, maxIterations = 2147483647, showTrainingStats = FALSE,
sgdInitTol = 0, trainThreads = NULL, denseOptimizer = FALSE,
normalize = "auto", mlTransforms = NULL, mlTransformVars = NULL,
rowSelection = NULL, transforms = NULL, transformObjects = NULL,
transformFunc = NULL, transformVars = NULL, transformPackages = NULL,
transformEnvir = NULL, blocksPerRead = rxGetOption("blocksPerRead"),
reportProgress = rxGetOption("reportProgress"), verbose = 1,
computeContext = rxGetOption("computeContext"),
ensemble = ensembleControl(), ...)
Аргументы
formula
Формула, описанная в статье, посвященной rxFormula. Условия взаимодействия и F()
в настоящее время не поддерживаются в MicrosoftML.
data
Объект источника данных или символьная строка, указывающая файл .xdf или объект кадра данных.
type
Символьная строка, указывающая тип логистической регрессии: "binary"
для логистической регрессии двоичной классификации по умолчанию или "multi"
для полиномиальной логистической регрессии.
l2Weight
Весовой коэффициент регуляризации L2. Его значение должно быть больше или равно 0
, а по умолчанию задано значение 1
.
l1Weight
Весовой коэффициент регуляризации L1. Его значение должно быть больше или равно 0
, а по умолчанию задано значение 1
.
optTol
Пороговое значение для схождения оптимизатора. Если улучшение между итерациями меньше, чем пороговое значение, алгоритм прекращает работу и возвращает текущую модель. Чем меньше значение, тем алгоритм медленнее, но точнее. Значение по умолчанию — 1e-07
.
memorySize
Размер памяти для алгоритма L-BFGS, указывающий число сохраняемых последних позиций и градиентов для вычисления следующего шага. Этот параметр оптимизации ограничивает объем памяти, используемый для вычисления величины и направления следующего шага. Если указано меньшее количество памяти, обучение проходит быстрее, но является менее точным. Значение должно быть больше или равно 1
. Значение по умолчанию — 20
.
initWtsScale
Задает диаметр начальных весовых коэффициентов, который определяет диапазон, из которого берутся значения для первоначальных весовых коэффициентов. Такие весовые коэффициенты инициализируются случайным образом из этого диапазона. Например, если задан диаметр d
, весовые коэффициенты равномерно распределяются между -d/2
и d/2
. По умолчанию ему задано значение 0
. Это значит, что все весовые коэффициенты инициализируются со значением 0
.
maxIterations
Задает максимальное число итераций. После этого числа шагов алгоритм останавливает работу, даже если критерии схождения не выполнены.
showTrainingStats
Укажите TRUE
, чтобы отображать статистику по данным обучения и обученной модели. Если это не нужно, задайте FALSE
. Значение по умолчанию — FALSE
. Дополнительные сведения о статистике модели см. в статье, посвященной summary.mlModel.
sgdInitTol
Задайте число больше 0, чтобы использовать стохастический градиентный спуск (SGD) для поиска первоначальных параметров. Ненулевое значение указывает допуск, который используется SGD для определения схождения. Значение по умолчанию — 0
(указывает, что SGD не используется).
trainThreads
Число потоков для использования при обучении модели. Должно быть равно числу ядер на компьютере. Обратите внимание, что многопоточный алгоритм L-BFGS пытается загрузить набор данных в память. При возникновении проблем с нехваткой памяти задайте для trainThreads
значение 1
, чтобы отключить многопоточность. Если указано значение NULL
, число используемых потоков будет определяться внутренне. По умолчанию используется значение NULL
.
denseOptimizer
Если значение равно TRUE
, включается принудительное уплотнение внутренних векторов оптимизации. Если значение равно FALSE
, оптимизатор логистической регрессии может при необходимости использовать разреженные или уплотненные внутренние состояния. Если для denseOptimizer
задать значение TRUE
, внутреннему оптимизатору потребуется использовать уплотненное внутреннее состояние, что может снизить нагрузку на сборщик мусора при решении более крупных проблем.
normalize
Указывает тип используемой автоматической нормализации:
-
"auto"
: если требуется нормализация, она выполняется автоматически. Это значение по умолчанию. -
"no"
: нормализация не выполняется. -
"yes"
: нормализация выполняется. -
"warn"
: если требуется нормализация, отображается предупреждение, но нормализация не выполняется.
Нормализация подгоняет разрозненные диапазоны данных к стандартному масштабу. Масштабирование признаков гарантирует, что расстояния между точками данных пропорциональны, и включает различные методы оптимизации (например, градиентный спуск) для ускоренного схождения. Если нормализация выполняется, используется нормализаторMaxMin
. Он нормализует значения в интервале [a, b], где-1 <= a <= 0
,0 <= b <= 1
иb - a = 1
. Этот нормализатор сохраняет степень незаполненности, сопоставляя ноль с нолем.
mlTransforms
Указывает список преобразований MicrosoftML, которые необходимо выполнить до обучения, или значение NULL
, если преобразования выполнять не нужно. Сведения о поддерживаемых преобразованиях см. на страницах о функциях featurizeText, categorical и categoricalHash. Эти преобразования выполняются после любых заданных преобразований R. Значение по умолчанию — NULL
.
mlTransformVars
Указывает символьный вектор имен переменных, используемых в mlTransforms
, или значение NULL
, если их не нужно использовать. Значение по умолчанию — NULL
.
rowSelection
Указывает записи (наблюдения) из набора данных, которые будут использоваться моделью с именем логической переменной из набора данных (в кавычках) или логическим выражением с указанием переменных в наборе данных. Например, rowSelection = "old"
будет использовать только те наблюдения, в которых значение переменной old
равно TRUE
.
rowSelection = (age > 20) & (age < 65) & (log(income) > 10)
использует только те наблюдения, в которых значение переменной age
находится в диапазоне от 20 до 65, а значение log
переменной income
больше 10. Выбор записей осуществляется после обработки всех преобразований данных (см. аргументы transforms
или transformFunc
). Как и все выражения, rowSelection
можно определить вне вызова функции с помощью функции выражения.
transforms
Выражение формы list(name = expression, ``...)
, представляющее первый цикл преобразования переменных. Как и все выражения, transforms
(или rowSelection
) можно определить за пределами вызова функции с помощью функции выражения.
transformObjects
Именованный список с объектами, на которые можно ссылаться с помощью transforms
, transformsFunc
и rowSelection
.
transformFunc
Функция преобразования переменной. Дополнительные сведения см. на странице, посвященной rxTransform.
transformVars
Символьный вектор для переменных входного набора данных, требуемый для функции преобразования. Дополнительные сведения см. на странице, посвященной rxTransform.
transformPackages
Символьный вектор, определяющий дополнительные пакеты R (за исключением пакетов, указанных в rxGetOption("transformPackages")
), которые будут доступны и предварительно загружены для использования в функциях преобразования переменных. Например, пакеты, явно определенные в функциях RevoScaleR через аргументы transforms
и transformFunc
или неявно определенные через аргументы formula
или rowSelection
. Аргумент transformPackages
также может иметь значение NULL
, указывающее на то, что пакеты, указанные за пределами rxGetOption("transformPackages")
, не будут предварительно загружаться.
transformEnvir
Определяемая пользователем среда, выступающая в роли родительской среды для всех разработанных внутренних сред и используемая для преобразования данных переменных. Если указано значение transformEnvir = NULL
, используется новая среда hash с родительской средой baseenv()
.
blocksPerRead
Указывает количество считываемых блоков для каждого фрагмента данных, считываемого из источника данных.
reportProgress
Целочисленное значение, указывающее уровень информирования по ходу обработки строки:
-
0
— информирование не осуществляется. -
1
— выводится и обновляется число обработанных записей. -
2
— выводятся данные об обработанных записях и времени обработки. -
3
— выводятся данные об обработанных записях и все данные о времени обработки.
verbose
Целочисленное значение, указывающее требуемый объем выходных данных. Если задано значение 0
, при вычислениях подробные выходные данные не выводятся. Целочисленные значения из диапазона от 1
до 4
позволяют увеличить объем информации.
computeContext
Задает контекст, в котором выполняются вычисления, указанные с помощью допустимого значения RxComputeContext. Сейчас поддерживаются локальные контексты и контексты вычислений RxInSqlServer.
ensemble
Параметры управления для сборки.
...
Дополнительные аргументы, передаваемые непосредственно в Microsoft Compute Engine.
Сведения
Логистическая регрессия — это метод классификации, используемый для прогнозирования значения категориальной зависимой переменной на основе связи с одной или несколькими независимыми переменными, которые предположительно имеют логистическое распределение. Если зависимое значение имеет только два возможных значения (успех или неудача), логистическая регрессия будет двоичной. Если зависимая переменная имеет более двух возможных значений (группа крови по результатам диагностического теста), логистическая регрессия будет полиномиальной.
Метод оптимизации, используемый для rxLogisticRegression
, — метод Бройдена — Флетчера — Голдфарба — Шэнно (L-BFGS). Как L-BFGS, так и обычные алгоритмы BFGS используют квазиньютоновские методы для оценки вычислительно ресурсоемкой матрицы Гессе в уравнении, используемом в методе Ньютона для вычисления шагов. Но приближение L-BFGS использует только ограниченный объем памяти, чтобы вычислить направление следующего шага, поэтому его оптимально использовать для проблем с большим числом переменных. Параметр memorySize
указывает число хранимых прошлых позиций и градиентов для использования в вычислении следующего шага.
Этот обучаемый объект может использовать регуляризацию эластичной сети — линейное сочетание регуляризаций L1 (lasso) и L2 (ridge). Регуляризация — это метод, который может сделать некорректно поставленную проблему более разрешимой. Он задает ограничения, которые предоставляют сведения, дополняющие данные, и предотвращающие лжевзаимосвязи путем накладывания штрафов на модели с экстремальными значениями коэффициентов. Такой подход позволяет улучшить обобщение модели, реализованное с помощью выбора оптимальной сложности в компромиссной частоте исключений. Регуляризация предполагает добавление штрафа, связанного со значениями коэффициентов, к погрешности гипотезы. К точной модели с предельными коэффициентами будет применен больший штраф. При этом для менее точной модели с более приемлемыми значениями штраф будет меньше. Регуляризации L1 и L2 дают разные результаты и сценарии использования. В некоторых аспектах они дополняют друг друга.
l1Weight
: можно применять к разреженным моделям при работе с многомерными данными. При этом извлекаются небольшие признаки, связанные с весовыми коэффициентами, которые относительно маловажны по отношению к 0.
l2Weight
: предпочтительно используется для данных без разреженности. При этом извлекаются крупные весовые коэффициенты к нулю.
Добавление штрафа ridge к регуляризации позволяет обойти некоторые ограничения
lasso. Это позволяет повысить точность прогнозирования, например в тех случаях, когда число предикторов больше размера выборки.
Если x = l1Weight
и y = l2Weight
, ax + by = c
определяет линейный диапазон членов регуляризации. Значения x и y по умолчанию: 1
. Агрессивная регуляризация может ухудшить возможности прогнозирования из-за исключения из модели важных переменных. Поэтому выбор оптимальных значений параметров регуляризации важен для производительности модели логистической регрессии.
Значение
rxLogisticRegression
— объект rxLogisticRegression
с обученной моделью.
LogisticReg
: объект спецификации обучения класса maml
для модуля обучения логистической регрессии.
Примечания
Этот алгоритм всегда будет пытаться загрузить весь набор данных в память, если trainThreads > 1
(многопоточность включена).
Авторы
Корпорация Майкрософт Microsoft Technical Support
Ссылки
Training of L1-Regularized Log-Linear Models
and L2 Regularization for Machine Learning
См. также раздел
rxFastTrees, rxFastForest, rxFastLinear, rxNeuralNet, rxOneClassSvm, featurizeText, categorical, categoricalHash, rxPredict.mlModel.
Примеры
# Estimate a logistic regression model
logitModel <- rxLogisticRegression(isCase ~ age + parity + education + spontaneous + induced,
transforms = list(isCase = case == 1),
data = infert)
# Print a summary of the model
summary(logitModel)
# Score to a data frame
scoreDF <- rxPredict(logitModel, data = infert,
extraVarsToWrite = "isCase")
# Compute and plot the Radio Operator Curve and AUC
roc1 <- rxRoc(actualVarName = "isCase", predVarNames = "Probability", data = scoreDF)
plot(roc1)
rxAuc(roc1)
#######################################################################################
# Multi-class logistic regression
testObs <- rnorm(nrow(iris)) > 0
testIris <- iris[testObs,]
trainIris <- iris[!testObs,]
multiLogit <- rxLogisticRegression(
formula = Species~Sepal.Length + Sepal.Width + Petal.Length + Petal.Width,
type = "multiClass", data = trainIris)
# Score the model
scoreMultiDF <- rxPredict(multiLogit, data = testIris,
extraVarsToWrite = "Species")
# Print the first rows of the data frame with scores
head(scoreMultiDF)
# Look at confusion matrix
table(scoreMultiDF$Species, scoreMultiDF$PredictedLabel)
# Look at the observations with incorrect predictions
badPrediction = scoreMultiDF$Species != scoreMultiDF$PredictedLabel
scoreMultiDF[badPrediction,]