Создание преобразования счетчиков
Важно!
Поддержка Студии машинного обучения (классической) будет прекращена 31 августа 2024 г. До этой даты рекомендуется перейти на Машинное обучение Azure.
Начиная с 1 декабря 2021 года вы не сможете создавать новые ресурсы Студии машинного обучения (классической). Существующие ресурсы Студии машинного обучения (классическая версия) можно будет использовать до 31 августа 2024 г.
- См. сведения о перемещении проектов машинного обучения из ML Studio (классической) в Машинное обучение Azure.
- См. дополнительные сведения о Машинном обучении Azure.
Поддержка документации по ML Studio (классической) прекращается, а сама документация может не обновляться в будущем.
Создает преобразование, которое переключает таблицы в функции, чтобы можно было применить преобразование к нескольким наборам данных.
категория: Обучение с количеством
Примечание
применимо к: только Машинное обучение Studio (классическая модель)
Подобные модули перетаскивания доступны в конструкторе машинного обучения Azure.
Обзор модуля
в этой статье описывается, как использовать модуль преобразования подсчета сборок в Машинное обучение Studio (классическая модель) для анализа обучающих данных. На основе этих данных модуль создает таблицу счетчиков , а также набор функций на основе количества , которые можно использовать в прогнозной модели.
Таблица счетчиков содержит совместное распределение всех столбцов компонента по заданному столбцу меток. Такая статистика полезна при определении того, какие столбцы имеют наибольшее значение информации. Добавление признаков на основе счетчика полезна, так как такие функции более компактны, чем исходные обучающие данные, но захватывают все полезные сведения. Параметры модуля можно использовать для настройки преобразования счетчиков в новый набор функций на основе количества.
После создания подсчета и преобразования их в функции можно сохранить процесс как преобразование для повторного использования связанных данных. Вы также можете изменить набор функций, не создавая новый набор счетчиков, или объединяя счетчики и функции с другим набором счетчиков и функций.
Возможность повторного использования и повторного применения функций на основе счетчиков полезна в таких сценариях:
- Новые данные становятся доступными для улучшения покрытия или балансировки набора данных.
- Исходные счетчики и функции основаны на очень больших наборах данных, которые не нужно повторно обрабатывать. Путем объединения счетчиков можно обновить новые данные.
- Необходимо убедиться, что один и тот же набор функций на основе счетчиков применяется ко всем наборам данных, используемым в эксперименте.
Настройка преобразования подсчета сборок
Можно создать преобразование компонента на основе счетчика непосредственно из набора данных и повторно запускать его при каждом запуске эксперимента. Кроме того, можно создать набор счетчиков, а затем объединить его с новыми данными, чтобы создать обновленную таблицу счетчиков.
Создание функций на основе счетчиков из набора данных
Начните здесь, если вы ранее не создавали счетчики. Модуль преобразования подсчета сборок используется для создания таблиц счетчиков и автоматического создания набора функций.
Этот процесс создает преобразование компонента, которое можно применить к набору данных с помощью модуля " Применить преобразование ".
Объединение счетчиков и функций из нескольких наборов данных
если вы уже создали таблицу счетчиков из предыдущего набора данных, создайте счетчики только для новых данных или импортируйте существующую таблицу счетчиков, созданную в более ранней версии Машинное обучение. Затем объедините два набора таблиц счетчиков.
Этот процесс создает новое преобразование компонента, которое можно применить к набору данных с помощью модуля " Применить преобразование ".
Создание функций на основе счетчиков из набора данных
в Машинное обучение Studio (классическая модель) добавьте модуль преобразования подсчета сборки в эксперимент. модуль можно найти в разделе преобразование данныхв категории Обучение с количеством.
Подключение набор данных, который будет использоваться в качестве основания для наших функций на основе количества.
Параметр число классов используется для указания количества значений в столбце Метка.
- Для любой проблемы с двоичной классификацией введите
2
. - Для задачи классификации с более чем двумя возможными выходными значениями необходимо заранее указать точное число подсчитываемых классов. Если ввести число меньше, чем действительное число классов, модуль возвратит ошибку.
- Если набор данных содержит несколько значений класса, а значения меток класса не являются последовательными, необходимо использовать параметр изменить метаданные , чтобы указать, что столбец содержит значения по категориям.
- Для любой проблемы с двоичной классификацией введите
Для параметра биты хэш-функцииуказывают, сколько битов следует использовать при хэшировании значений.
Как правило, рекомендуется принимать значения по умолчанию, если вы не уверены, что количество значений для подсчета и может потребоваться более высокое число битов.
В начальном значении хэш-функцииможно дополнительно указать значение для заполнения функции хэширования. Задание начального значения вручную обычно выполняется, если необходимо убедиться, что результаты хэширования являются детерминированными для выполнения одного и того же эксперимента.
Используйте параметр Тип модуля , чтобы указать тип данных, которые будут учитываться в зависимости от режима хранения.
набор данных. выберите этот параметр при подсчете данных, сохраненных в виде набора данных в Машинное обучение Studio (классическая модель).
Blob: выберите этот параметр, если исходные данные, используемые для построения счетчиков, хранятся в виде блочного Blob-объекта в Windows хранилище Azure.
MapReduce. выберите этот параметр, если требуется вызвать функции Map/Reduce для обработки данных.
чтобы использовать этот параметр, новые данные должны быть предоставлены в виде большого двоичного объекта в Windows хранилище Azure, и у вас должен быть доступ к развернутому кластеру HDInsight. При выполнении эксперимента в кластере запускается задание Map/reduce для выполнения инвентаризации.
Для очень больших наборов данных рекомендуется использовать этот параметр везде, где это возможно. Хотя вы можете понести дополнительные расходы при использовании службы HDInsight, вычисление больших наборов данных в ней может осуществляться быстрее.
Для получения дополнительной информации см. https://azure.microsoft.com/services/hdinsight/.
После указания режима хранения данных укажите дополнительные сведения о подключении для необходимых данных.
- Если вы используете данные из Hadoop или хранилища BLOB-объектов, укажите расположение кластера и учетные данные.
- Если вы ранее использовали модуль Импорт данных в эксперименте для доступа к данным, необходимо повторно ввести имя учетной записи и учетные данные. Модуль преобразования подсчета сборки обращается к хранилищу данных отдельно, чтобы считать данные и собрать необходимые таблицы.
Для столбца или индекса меткивыберите один столбец в качестве столбца метки.
Столбец меток является обязательным. Столбец уже должен быть помечен как метка, иначе возникает ошибка.
Используйте параметр, выберите столбцы для подсчетаи выберите столбцы, для которых необходимо создать счетчики.
Как правило, наиболее подходящие варианты — это столбцы с большими размерами, а также любые другие столбцы, связанные с этими столбцами.
Используйте параметр тип таблицы Count , чтобы указать формат, используемый для хранения таблицы счетчиков.
Dictionary: создает таблицу счетчиков словарей. Все значения в выбранных столбцах рассматриваются как строки и хэшируются с помощью битового массива размером до 31 бита. Поэтому все значения столбцов представляются в виде неотрицательных 32-битных целых чисел.
Как правило, этот параметр следует использовать для небольших наборов данных (менее 1 ГБ) и использовать параметр кмскетч для больших наборов DataSet.
Выбрав этот параметр, настройте число битов, используемых функцией хэширования, и задайте начальное значение для инициализации хэш-функции.
Кмскетч: создает таблицу минимального эскиза. При выборе этого варианта для более эффективного использования памяти и снижения шанса конфликтов хэша используются несколько независимых хэш-функций с меньшими диапазонами. Параметры для битового размера и начального значения хэша не влияют на этот параметр.
Запустите эксперимент.
Модуль создает Преобразование Добавление признаков , которое можно использовать в качестве входных данных для модуля " Применить преобразование ". Выходными данными модуля « Применить преобразование » является преобразованный набор данных, который можно использовать для обучения модели.
При необходимости можно сохранить преобразование, если требуется объединить набор функций на основе количества с другим набором функций на основе количества. Дополнительные сведения см. в разделе Преобразование числа слиянием.
Объединение счетчиков и функций из нескольких наборов данных
в Машинное обучение Studio (классическая модель) добавьте модуль преобразования подсчета сборки в эксперимент и подключите набор данных, содержащий новые данные, которые необходимо добавить.
Используйте параметр Тип модуля , чтобы указать источник новых данных. Можно выполнить слияние данных из разных источников.
набор данных. выберите этот параметр, если новые данные предоставляются в качестве набора данных в Машинное обучение Studio (классическая модель).
Blob: выберите этот параметр, если новые данные предоставляются в виде блочного Blob-объекта в Windows хранилище Azure.
MapReduce. выберите этот параметр, если требуется вызвать функции Map/Reduce для обработки данных.
чтобы использовать этот параметр, новые данные должны быть предоставлены в виде большого двоичного объекта в Windows хранилище Azure, и у вас должен быть доступ к развернутому кластеру HDInsight. При выполнении эксперимента в кластере будет запущено задание Map/reduce для выполнения инвентаризации.
Дополнительные сведения см. в разделе https://azure.microsoft.com/services/hdinsight/.
После указания режима хранения данных укажите дополнительные сведения о подключении для новых данных.
Если вы используете данные из Hadoop или хранилища BLOB-объектов, укажите расположение кластера и учетные данные.
Если вы ранее использовали модуль Импорт данных в эксперименте для доступа к данным, необходимо повторно ввести имя учетной записи и учетные данные. Причина заключается в том, что модуль преобразования подсчета сборки обращается к хранилищу данных отдельно, чтобы считать данные и собрать необходимые таблицы.
При объединении счетчиков следующие параметры должны быть в точности одинаковы в обеих таблицах счетчиков:
- Число классов
- Биты хэш-функции
- Начальное значение хэш-функции
- Выберите столбцы для подсчета
Столбец меток может отличаться, если он содержит одинаковое число классов.
Используйте параметр тип таблицы Count , чтобы указать формат и назначение для обновленной таблицы счетчиков.
Совет
Формат двух таблиц счетчиков, которые необходимо объединить, должен быть одинаковым. Иными словами, если вы сохранили более раннюю таблицу счетчиков в формате словаря , ее нельзя объединить с счетчиками, сохраненными с помощью формата кмскетч .
Запустите эксперимент.
Модуль создает Преобразование Добавление признаков , которое можно использовать в качестве входных данных для модуля " Применить преобразование ". Выходными данными модуля « Применить преобразование » является преобразованный набор данных, который можно использовать для обучения модели.
Чтобы объединить этот набор счетчиков с существующим набором функций на основе количества, см. раздел Преобразование числа слиянием.
Примеры
В этих статьях содержатся дополнительные сведения о алгоритме counts и эффективность моделирования на основе подсчета по сравнению с другими методами.
- использование ML Azure для построения моделей прогнозирования по щелчку
- большие Обучение упрощают подсчет!
Следующие эксперименты в Коллекция решений ии Azure демонстрируют, как использовать изучение на основе количества для создания различных прогнозных моделей.
- Обучение с счетчиками — двоичная классификация
- Обучение со счетчиками: многоклассовая классификация с данными нью такси
- Обучение со счетчиками: двоичная классификация с данными такси нью
Параметры модуля
Со всеми параметрами используются следующие параметры:
Имя | Type | Диапазон | Необязательно | Значение по умолчанию | Описание |
---|---|---|---|---|---|
Число классов | Целое число | >= 2 | Обязательно | 2 | Количество классов для метки. |
Биты хэш-функции | Целое число | [12; 31] | Обязательно | 20 | Число битов диапазона хэш-функции. |
Начальное значение хэш-функции | Целое число | any | Обязательно | 1 | Начальное значение хэш-функции. |
Тип модуля | Обязательно | Dataset | Тип модуля, используемый при формировании таблицы счетчиков. | ||
Тип таблицы счетчиков | CountTableType | выбрать из списка | Обязательно | Словарь | Укажите формат таблицы подсчета. |
При выборе параметра BLOB-объекта применяются следующие параметры.
Имя | Type | Диапазон | Необязательно | Значение по умолчанию | Описание |
---|---|---|---|---|---|
Имя большого двоичного объекта | Строка | any | Обязательно | Имя входного большого двоичного объекта. Не включайте имя контейнера. | |
Имя учетной записи | Строка | any | Обязательно | Имя учетной записи хранения. | |
Ключ учетной записи | SecureString | any | Обязательно | Ключ учетной записи хранения. | |
Имя контейнера | Строка | any | Обязательно | Контейнер больших двоичных объектов Azure, содержащий входной большой двоичный объект. | |
Столбцы счетчиков | Строка | any | Обязательно | Отсчитываемый от единицы индексы групп столбцов для выполнения инвентаризации. | |
Столбец метки | Целое число | >= 1 | Обязательно | 1 | Отсчитываемый от единицы индекс столбца меток. |
Формат BLOB-объекта | any | Обязательно | CSV | Формат файлового текста BLOB-объекта. |
при использовании MapReduce для создания счетчиков применяются следующие параметры:
Имя | Type | Диапазон | Необязательно | Значение по умолчанию | Описание |
---|---|---|---|---|---|
Имя учетной записи хранения по умолчанию | Строка | any | Обязательно | нет | Имя учетной записи хранения, содержащей входной большой двоичный объект. |
Ключ учетной записи хранения по умолчанию | SecureString | any | Обязательно | нет | Ключ учетной записи хранения, содержащей входной большой двоичный объект. |
Имя контейнера по умолчанию | Строка | any | Обязательно | нет | Имя контейнера больших двоичных объектов для записи таблицы счетчиков. |
URI кластера | Строка | any | Обязательно | нет | Универсальный код ресурса (URI) для кластера HDInsight Hadoop. |
Имя пользователя | Строка | any | Обязательно | нет | Имя пользователя для входа в кластер Hadoop HDInsight. |
Следующие параметры определяют формат таблицы Count:
Имя | Type | Диапазон | Необязательно | Значение по умолчанию | Описание |
---|---|---|---|---|---|
Тип таблицы счетчиков | CountTableType | Список | Обязательно | Словарь | Тип таблицы подсчета. |
Индекс или имя столбца меток | Выбор столбцов | Требуется, если таблица счетчиков сохранена как набор данных | нет | Выберите столбец Метка. | |
Выберите столбцы для подсчета | Выбор столбцов | Требуется, если таблица счетчиков сохранена как набор данных | Выберите столбцы для подсчета. Эти столбцы рассматриваются как функции категории категорий. | ||
Глубина схематической таблицы минимума счетчиков | Целое число | >= 1 | Required, если в таблице Count используется формат Кмскетч | 4 | Глубина таблицы "эскиз диспетчера подключений", которая равна числу хэш-функций. |
Ширина схематической таблицы минимума счетчиков | Целочисленный тип | [1;31] | Required, если в таблице Count используется формат Кмскетч | 20 | Ширина таблицы CM эскиза, которая представляет собой число битов диапазона хэш-функции. |
Индекс столбца метки или NameColumn | Выбор столбцов | Требуется, если таблица счетчиков сохранена как набор данных | Выбирает столбец Метка. | ||
Выберите столбцы для подсчета | Выбор столбцов | Требуется, если таблица счетчиков сохранена как набор данных | Выбирает столбцы для подсчета. Эти столбцы рассматриваются как функции категории категорий. | ||
Тип таблицы счетчиков | Требуется, если таблица счетчиков сохранена как набор данных | Словарь | Указывает тип таблицы подсчета. | ||
Глубина схематической таблицы минимума счетчиков | Целое число | >= 1 | Требуется, если таблица счетчиков сохранена как Кмскетч | 4 | Глубина таблицы эскизов CM, которая равна числу хэш-функций. |
Ширина схематической таблицы минимума счетчиков | Целочисленный тип | [1;31] | Требуется, если таблица счетчиков сохранена как Кмскетч | 20 | Ширина таблицы CM эскиза, которая представляет собой число битов диапазона хэш-функции. |
Выходные данные
Имя | Тип | Описание |
---|---|---|
Преобразование подсчета | Интерфейс ITransform | Преобразование подсчета. |
Исключения
Исключение | Описание |
---|---|
Ошибка 0003 | Исключение возникает, если один или несколько входных аргументов имеют значение NULL или пусты. |
Ошибка 0004 | Исключение возникает, если параметр меньше или равен определенному значению. |
Ошибка 0005 | Исключение возникает, если параметр меньше определенного значения. |
Ошибка 0007 | Исключение возникает, если параметр больше определенного значения. |
Ошибка 0009 | Исключение возникает, если имя учетной записи хранилища Azure или имя контейнера указаны неверно. |
Ошибка 0065 | Исключение возникает, если имя большого двоичного объекта Azure указано неправильно. |
Ошибка 0011 | Исключение возникает, если переданный аргумент набора столбцов не применяется к любому из столбцов набора данных. |
Ошибка 0049 | Исключение возникает в случае, если не удается выполнить анализ файла. |
Ошибка 1000 | Внутреннее исключение библиотеки. |
Ошибка 0059 | Исключение возникает, если не удается проанализировать индекс столбца, указанный в средстве выбора столбцов. |
Ошибка 0060 | Исключение возникает, если в средстве выбора столбцов указан ряд столбцов вне диапазона. |
Ошибка 0089 | Исключение возникает, когда указанное количество классов меньше, чем фактическое число классов в наборе данных, используемом для подсчета. |
список ошибок, относящихся к модулям студии (классическая версия), см. в разделе Машинное обучение коды ошибок.
список исключений API см. в разделе Машинное обучение REST API коды ошибок.