Линейная корреляция вычислений
Важно!
Поддержка Студии машинного обучения (классической) будет прекращена 31 августа 2024 г. До этой даты рекомендуется перейти на Машинное обучение Azure.
Начиная с 1 декабря 2021 года вы не сможете создавать новые ресурсы Студии машинного обучения (классической). Существующие ресурсы Студии машинного обучения (классическая версия) можно будет использовать до 31 августа 2024 г.
- См. сведения о перемещении проектов машинного обучения из ML Studio (классической) в Машинное обучение Azure.
- См. дополнительные сведения о Машинном обучении Azure.
Поддержка документации по ML Studio (классической) прекращается, а сама документация может не обновляться в будущем.
Вычисляет линейную корреляцию между значениями столбцов в наборе данных
Категория: статистические функции
Примечание
Область применения: только Машинное обучение Studio (классическая версия)
Подобные модули перетаскивания доступны в конструкторе машинного обучения Azure.
В этой статье описывается, как использовать модуль линейной корреляции вычислений в Машинное обучение Studio (классическая модель) для вычисления набора коэффициентов корреляции Пирсона для каждой возможной пары переменных во входном наборе данных.
Коэффициент корреляции Пирсона, иногда называемый тестом R Пирсона, является статистическим значением, которое измеряет линейную связь между двумя переменными. Проверив значения коэффициентов, можно определить что-то о силе связи между двумя переменными, а также о том, являются ли они положительно коррелировать или отрицательно коррелируются.
Перед вычислением коэффициента корреляции существуют некоторые предварительные требования, такие как очистка данных и проверка того, что связь между переменными подходит для этого модуля. Необходимо также удалить или ввести отсутствующие значения.
При использовании этого модуля применяются следующие ограничения:
Модуль линейной корреляции вычислений может обрабатывать только числовые значения. Все другие типы значений, включая недостающие значения, нечисловые значения и категориальные значения, рассматриваются как значения NaN.
Корреляция Пирсона вычисляется для всех числовых столбцов в наборе данных, переданных в качестве входных данных. Не забудьте исключить все столбцы, соответствующие этому анализу.
Линейная корреляция вычислений не может использоваться с данными с отсутствующими значениями.
Если тестируемые столбцы не имеют какой-либо линейной связи, то при создании этого коэффициента нет смысла. Поэтому рекомендуется сначала протестировать столбцы, чтобы узнать, имеют ли они правильный вид данных и правильное распределение в целом.
Существует несколько способов определить, является ли связь между столбцами примерно линейной:
Создайте точечную диаграмму переменных в Студии (классической) с помощью параметра визуализации набора данных. Щелкните один из столбцов числовых переменных, разверните "Визуализации" и щелкните "Сравнить с". Выберите другую переменную и автоматически создается точечная диаграмма. Если создается другой тип диаграммы, это означает, что по крайней мере один столбец имеет другой (нечисловый) тип данных.
Вычисление уравнения регрессии для двух переменных. Существует множество пакетов R, поддерживающих эту функцию, которые можно загрузить и использовать в модуле «Выполнение скрипта R ».
Необходимо удалить или заполнить отсутствующие значения, удалить или вырезать выбросы и убедиться, что столбцы имеют правильный тип данных.
Перед использованием этого модуля обязательно проверьте заполнители и замените такое значение другими соответствующими значениями. Если naN были вставлены для отсутствующих значений при загрузке набора данных из источника, это может привести к ошибке. Значения заполнителей, такие как 999
или -1
также могут привести к плохим результатам.
Для подготовки данных можно использовать следующие модули:
Тип данных столбцов можно настроить с помощью редактирования метаданных. Убедитесь, что столбцы, которые необходимо проанализировать, помечены как столбцы признаков.
Добавьте модуль линейной корреляции вычислений в эксперимент. Этот модуль можно найти в категории статистических функций в Машинное обучение Studio (классическая модель).
Добавьте набор данных, который требуется проанализировать.
Рекомендуется добавить модуль Select Columns in Dataset между набором данных и модулем линейной корреляции вычислений , чтобы удалить ненужные столбцы. Настройте модуль Select Columns в модуле набора данных, чтобы получить только два числовых столбца, для которых требуется вычислить коэффициенты.
В противном случае модуль линейной корреляции вычислений может создать множество столбцов naN.
Для этого модуля нет параметров. Однако это приведет к сбою, если столбцы, которые передаются в качестве входных данных, не соответствуют требованиям.
Запустите эксперимент.
Учитывая два столбца признаков, модуль линейной корреляции вычислений возвращает коэффициент корреляции скалярного пирсона (выборка). Коэффициент корреляции Пирсона (часто обозначается как r) диапазонов в значении от +1 до -1.
+1
указывает на сильную положительную линейную связь-1
указывает сильную отрицательную линейную корреляцию0
означает отсутствие линейной связи между двумя переменными.
Интерпретация коэффициентов зависит от моделируемой задачи и изучаемых переменных. Поэтому важно понимать контекст данных при составлении отчетов и интерпретации коэффициента корреляции Пирсона.
Если вы уверены, что переменные не связаны, а коэффициент корреляции Пирсона сильно положительный (r > .5 или т. п.), следует изучить дальше.
Если вы используете линейную корреляцию для двух переменных, которые вы знаете точно коррелировать, и значения коэффициентов не являются ожидаемыми, это может указывать на проблему в данных.
Учитывая матрицу (т. е. более двух столбцов признаков), модуль вычислений линейной корреляции возвращает набор корреляций моментов продукта Пирсона между каждой парой столбцов признаков.
Таким образом, результатом является таблица n x n , содержащая коэффициенты для каждого сочетания n столбцов. Если какие-либо столбцы не соответствуют критериям, возвращается значение NaN ("не число").
Например, предположим, что вы передали два числовых столбца wheel-base
и curb-weight
один категориальный столбец make
(из набора данных о ценах на автомобили). Результатом является таблица коэффициентов 3x3 для всех возможных сочетаний входных столбцов:
make |
wheel-base |
curb-weight |
---|---|---|
Nan | Nan | Nan |
Nan | 1 | 0.776386 |
Nan | 0.776386 | 1 |
В этой таблице строки понимаются для представления каждой из переменных,make
wheel-base
и curb-weight
в этом порядке.
- Значение r для корреляции
wheel-base
самого себя равно 1. - Значение r для корреляции
wheel-base
curb-weight
равно 0,776386. - Все корреляции, связанные с столбцом
make
, приводят к значению NaN, включая корреляцию с самим собой, так какmake
это строковая функция.
Рекомендуется удалить нечисловые столбцы, чтобы избежать сложных таблиц со множеством бессмысленных значений.
Чтобы узнать, как этот модуль используется в экспериментах машинного обучения, ознакомьтесь с коллекцией ИИ Azure:
- Обработка и анализ данных. В этом примере демонстрируется несколько методов изменения данных. Линейная корреляция вычислений используется для определения потенциальных столбцов признаков.
В этом разделе содержатся сведения о реализации, советы и ответы на часто задаваемые вопросы.
Если столбец, передаваемый в качестве входных данных, содержит скаляры, массивы входных данных (x и y) являются векторами, а корреляция Пирсона по смешанным моментам возвращается следующим образом:
В этой формуле каждый массив содержит n элементов, а средства выборок x и y имеют значение μx и μy соответственно.
В случае матрицы данных матрица (X) является входными данными, в которых каждый столбец представляет собой вектор значений. Матрица данных должна быть n-*-m. Выходными данными является матрица m-*-m, R определяется как
В этой формуле μx представляет среднее значение столбца xi. Элементы I, j всегда равны 1, так как они соответствуют корреляции вектора с самим собой.
Имя | Тип | Описание |
---|---|---|
Dataset | Таблица данных | Входной набор данных |
Имя | Тип | Описание |
---|---|---|
Набор данных результатов | Таблица данных | Матрица корреляции |
Исключение | Описание |
---|---|
Ошибка 0003 | Исключение возникает, если один или несколько входных аргументов имеют значение NULL или пусты. |
Ошибка 0020 | Исключение возникает, если количество столбцов в некоторых наборах данных, переданных модулю, слишком мало. |
Ошибка 0021 | Исключение возникает, если количество строк в некоторых наборах данных, переданных модулю, слишком мало. |
Список ошибок, относящихся к модулям Студии (классическая модель), см. в Машинное обучение кодах ошибок.
Список исключений API см. в разделе Машинное обучение коды ошибок REST API.