Поделиться через


Элементарная статистика вычислений

Важно!

Поддержка Студии машинного обучения (классической) будет прекращена 31 августа 2024 г. До этой даты рекомендуется перейти на Машинное обучение Azure.

Начиная с 1 декабря 2021 года вы не сможете создавать новые ресурсы Студии машинного обучения (классической). Существующие ресурсы Студии машинного обучения (классическая версия) можно будет использовать до 31 августа 2024 г.

Поддержка документации по ML Studio (классической) прекращается, а сама документация может не обновляться в будущем.

Вычисляет указанные сводные статистические данные для выбранных столбцов набора данных

Категория: статистические функции

Примечание

применимо к: только Машинное обучение Studio (классическая модель)

Подобные модули перетаскивания доступны в конструкторе машинного обучения Azure.

Обзор модуля

в этой статье описывается, как использовать модуль вычисления простейшей статистики в Машинное обучение Studio (классическая модель) для создания сводного отчета для набора данных, в котором перечислены ключевые статистические показатели, такие как среднее, стандартное отклонение и диапазон значений для каждого из выбранных столбцов.

Этот отчет полезен при анализе центральной тенденции, дисперсии и формы данных.

Настройка простой статистики вычислений

  1. Добавьте модуль Вычисление простейшей статистики в эксперимент. этот модуль можно найти в категории статистические функции в Машинное обучение Studio (классическая модель).

  2. Подключение набор данных, содержащий столбцы, которые необходимо проанализировать.

  3. Щелкните раскрывающийся список метод и выберите тип значения, которое нужно вычислить для каждого столбца.

    Полный список доступных статистических данных и их значения см. в разделе Поддерживаемые статистические данные .

  4. По умолчанию значение, выбранное в раскрывающемся списке метод , будет вычисляться для всех столбцов набора данных, имеющих числовой тип данных. Если какой бы то ни было столбец содержит значения, которые не позволяют вычислить значение, будет вызвана ошибка и отчет не будет создан.

    Чтобы избежать этой ошибки, используйте селектор столбцов для выбора числовых столбцов, для которых требуется отчет. Все выбираемые столбцы должны быть числовыми.

  5. Запустите эксперимент.

Результаты

Созданный отчет содержит имя каждого столбца и статистический показатель, который был вычислен. Например, в следующей таблице показана статистика, созданная для столбца MPG .

Девиатионскуаред (MPG) Max (MPG) Min (MPG)
9674,312 25,21951 13

Совет

Каждый раз при запуске вычисления простейшей статистикиможно создать только одну сводную статистику для каждого из выбранных столбцов. Однако можно использовать модули Добавить столбцы или Добавить строки , чтобы объединить результаты в одну таблицу, как в предыдущем примере.

Поддерживаемые статистические данные

Этот модуль поддерживает следующие стандартные описательные статистические данные.

Квадратичное отклонение

Вычисляет квадратное отклонение значений столбца. Также называется суммой квадратов.

Отклонение в квадрате — это мера того, насколько далеко значения распространяются от среднего.

Среднее геометрическое

Вычисляет среднее геометрическое значений столбца.

Среднее геометрическое значение можно использовать для измерения центральной тенденции набора чисел. По сравнению с средним арифметическим, на него меньше зависят немалое число экстремальных значений. Он также может использоваться для сравнения измерений на разных масштабах, так как он эффективно нормализует шкалы сравниваемых чисел. Геометрические средние значения иногда используются для оценки составных годовых ставок роста.

эквивалентная функция в Excel является геометрической.

Среднее гармоническое значение

Вычисляет Среднее гармоническое значений столбца.

Чтобы вычислить среднее гармоническое, все значения преобразуются в обратные, а затем вычисляются средние значения. Среднее гармоническое является обратным значением этого среднего. Если значения столбца положительны, то большие числа имеют взвешенные меньше, чем меньшие числа.

Среднее гармоническое всегда меньше среднего геометрического значения, которое всегда меньше среднего значения арифметического. Среднее гармоническое полезно для усреднения переменных, представляющих тарифы, например скорость (расстояние по времени) или продажи в квартал.

эквивалентная функция в Excel — хармеан.

Интерквартильная широта

Вычисляет разность интеркуартиле для первого и последнего квартилей значений столбца. Также называется диапазоном квартиль. Когда квартиль попадает между двумя числами, значение квартиль представляет собой среднее арифметическое двух значений с обеих сторон вырезания.

Значение квартиль делит столбец значений на четыре группы с одинаковым числом значений. Таким результатом, один квартал значений меньше 25 процентиль или равен ему. Три квартала значений меньше или равны 75 процентиль. Просмотрев диапазон квартиль, вы можете получить представление о том, насколько широко распространены значения данных.

K-й центральный момент

Вычисляет K-й центральный момент для значений столбца.

При вычислении K-го центрального времени необходимо также указать порядок, то есть значение K. Значение k может находиться в диапазоне от 0 до любого допустимого целого значения, хотя более высокие значения порядка обычно не являются значимыми.

Как правило, в описательной статистике в настоящий момент это мера, описывающая форму набора точек. Центральное время — это среднее значение, которое обычно используется, так как они предоставляют лучшую информацию о фигуре распределения. Порядок 2 обычно представляет дисперсию; для эксцесс используется порядок 4. Первое время заказа является средним. Таким образом, коллекция всех секунд однозначно описывает распределение значений в столбце.

Max

Находит Максимальное значение в столбце.

Среднее значение

Вычисляет среднее арифметическое значений столбцов.

эквивалентной функцией в Excel является AVERAGE.

Среднее отклонение

Вычисляет Среднее абсолютное отклонение значений столбцов.

Это означает, что среднее вычисляется для столбца, а отклонение вычисляется для каждого значения в столбце. Средним значением отдельных значений отклонения является среднее отклонение.

Этот статистический показатель показывает, как распределять среднее значение для столбца чисел.

Median

Возвращает медиану значений столбца.

Медиана — это число в середине столбца чисел. Если в столбце четное число чисел, медиана является средним значением двух чисел в середине.

Медиана, а также Среднее и режим— одна из трех статистических показателей, которые измеряют центральную тенденции. Если значения являются симметричными по отношению к среднему, три цифры будут примерно одинаковыми. Однако медиана более надежна для выбросов, чем среднее значение.

Медианное отклонение

Вычисляет медианное отклонение для столбца.

То есть для столбца вычисляются медиана и отклонение, вычисленное для каждого значения в столбце. Берется медиана абсолютное значение отдельных значений отклонения.

Медианное абсолютное отклонение также называется MAD и используется для описания вариативности выборки чисел. MAD рассказывает о том, как распределяться по среднему столбцу чисел.

Min

Возвращает минимальное значение значений столбца.

Режим

Находит все режимы для столбца.

Режим — это значение, которое чаще всего находится в столбце. Если несколько значений отображаются одинаковое число раз, то в столбце может быть несколько режимов.

Как мера центральной тенденции, режим является более надежным для выбросов, чем среднее, и может использоваться с номинальными данными.

Стандартное отклонение совокупности

Вычисляет стандартное отклонение совокупности значений столбцов.

Эта статистика предполагает, что значения столбца представляют всю генеральную совокупность. Если данные являются только выборкой из Генеральной совокупности, необходимо вычислить стандартное отклонение, используя стандартное отклонение выборки. Однако в больших наборах данных две статистические данные возвращают приблизительно равное значение.

Стандартное отклонение вычисляется как квадратный корень из дисперсии столбца. Эта статистика охватывает степень вариативности в столбце.

Дисперсия совокупности

Вычисляет дисперсию совокупности значений столбцов.

Вариативность измеряет степень распределения набора чисел. Если дисперсия равна нулю, все числа одинаковы.

Эта статистика предполагает, что столбец значений представляет всю генеральную совокупность. Если данные содержат только образец значений, следует вычислить дисперсию с помощью выборки дисперсии.

эквивалентная функция Excel — VAR.P .

Продукт

Вычисляет произведение элементов столбца.

Чтобы получить продукт, вы получаете несколько чисел в столбце. Результат не имеет смысла в качестве описательной статистики, но функция полезна для различных вычислений.

Диапазон

Вычисляет диапазон значений столбца. Диапазон определяется как максимальное значение минус минимальное значение

Куртозис выборки

Вычисляет Пример эксцесс для значений столбца.

Эксцесс описывает форму распределения значений, то есть как пиковое или плоское распределение значений по сравнению с нормальным распределением.

  • Нормальное распределение имеет эксцесс 0.

  • Высокие значения эксцесс указывают на то, что масса вероятности concentratedся либо по пиковому, либо в заключительном фрагменте распределения.

  • Отрицательные значения эксцесс указывают относительно плоское распределение.

Асимметрия выборки

Вычисляет выборку значений столбца в качестве значения смещения.

Асимметрия описывает, находится ли основная часть значений в центре, смещается влево или сдвигаются вправо. Два дистрибутива могут иметь одно и то же среднее и стандартное отклонение, но имеют разную форму. Можно использовать асимметрию и эксцесс для формирования характеристик фигуры.

  • Отрицательные значения смещения означают, что распределение расклоняется влево.

  • 0 означает нормальное распределение.

  • Положительные значения асимметрии означают, что распределение расклоняется вправо.

Стандартное отклонение выборки

Вычисляет стандартное отклонение выборки для значений столбцов.

Стандартное отклонение образца измеряет степень распределения значений в столбце от среднего значения. Он представляет среднее расстояние между значениями данных в наборе и средним значением.

Эта статистика предполагает, что значения столбцов представляют выборку из Генеральной совокупности. Если данные представляют всю генеральную совокупность, необходимо вычислить стандартное отклонение, используя стандартное отклонение генеральной совокупности.

эквивалентная функция Excel — ST. DEV. S.

Дисперсия выборки

Вычисляет выборку дисперсии значений столбцов.

В этом методе предполагается, что значения столбцов представляют выборку из Генеральной совокупности. Если столбец содержит всю генеральную совокупность, следует использовать стандартную дисперсию заполнения.

эквивалентная функция Excel — VAR. S.

SUM

Вычисляет сумму значений столбца.

Примеры

Следующие эксперименты в Коллекция решений ии Azure демонстрируют, как можно создать сводный отчет, содержащий описательную статистику для всего набора данных. Сводный отчет содержит только общую статистику; Однако его можно сохранить как набор данных, а затем добавить более подробную статистику с помощью параметров в области вычислений "простейшая статистика".

Технические примечания

В этом разделе содержатся сведения и советы относительно реализации, а также ответы на часто задаваемые вопросы.

Совет

При использовании модуля Вычисление простейшей статистики должны быть выполнены следующие условия.

  • Для расчета выбранной статистики должно быть достаточное количество точек данных (строк). Например, для вычисления стандартного отклонения выборки требуется по крайней мере две точки данных. в противном случае результатом будет NaN.
  • Входные столбцы должны быть числовыми или логическими.

По умолчанию выбраны все числовые столбцы. Однако если какие-либо числовые столбцы помечены как категории категорий, может возникнуть следующая ошибка: "ошибка 0056: столбец с именем столбца > имен < не входит в допустимую категорию". Чтобы исправить ошибку, добавьте экземпляр модуля редактирования метаданных , выберите столбец с проблемой и используйте параметр Удалитькатегоризацию.

Сведения о реализации

Логические столбцы обрабатываются следующим образом:

  • MIN вычисляется как логическое И.

  • MAX вычисляется как логическое ИЛИ.

  • ДИАПАЗОН проверяет, равно ли количество уникальных значений в столбце 2.

  • Отсутствующие значения игнорируются.

  • Для статистики, требующей вычислений с плавающей запятой, True = 1,0, False = 0,0.

Ожидаемые входные данные

Имя Тип Описание
Dataset Таблица данных Входной набор данных

Параметры модуля

Имя Диапазон Тип По умолчанию Описание
Метод Список Метод простейшей статистики Выбирает статистический метод для использования в вычислениях. См. раздел Использование раздела для списка значений.
Набор столбцов any Выбор столбцов NumericAll Выбираются столбцы, для которых вычисляется статистика
Порядок >= 1 Целочисленный тип 3 Задает значение для центрального порядка (используется только для КС в центральном времени)

Выходные данные

Имя Тип Описание
Набор данных результатов Таблица данных Выходной набор данных

Исключения

Исключение Описание
Ошибка 0017 Исключение возникает, если один или несколько указанных столбцов относятся к типу, который не поддерживается в текущем модуле.

список ошибок, относящихся к модулям студии (классическая версия), см. в разделе Машинное обучение коды ошибок.

список исключений API см. в разделе Машинное обучение REST API коды ошибок.

См. также раздел

Статистические функции
простые
Сведение данных
Список модулей в алфавитном порядке