Поделиться через


Основные сведения о требованиях для модели временных рядов (учебник по интеллектуальному анализу данных — средний уровень)

 

Применимо к: SQL Server 2016 Preview

Данные для модели прогнозирования при подготовке должны содержать один столбец, который может быть использован для идентификации этапов временных рядов. Этот столбец будет использоваться в качестве Key Time столбца. Этот столбец является ключом и должен содержать уникальные числовые значения.

Правильный выбор единицы для Key Time столбец является важной частью анализа. Например, пусть данные о продажах обновляются каждую минуту. В качестве единицы временного ряда не обязательно использовать минуты. Более разумно будет сводить данные о продажах по дням, неделям или месяцам. Если непонятно, какую единицу времени следует использовать, можно создать новое представление источника данных для каждого статистического выражения и построить связанные модели, чтобы посмотреть, не появляются ли разные тренды на каждом уровне статистической обработки.

В этом учебнике данные о продажах собираются ежедневно и заносятся в транзакционную базу данных продаж, но для интеллектуального анализа данные заранее объединены по месяцам с использованием представления.

Кроме того, для анализа желательно, чтобы в данных было как можно меньше промежутков. Если планируется анализ нескольких рядов данных, то желательно, чтобы все ряды начинались с одной даты и заканчивались одной датой. Если в данных имеются промежутки (кроме как в начале и в конце ряда), то для заполнения ряда можно использовать параметр MISSING_VALUE_SUBSTITUTION. Службы Analysis Services также предоставляет несколько возможностей замены отсутствующих данных средними значениями или константами.

Предупреждение


Сводная диаграмма и сводная таблица, входившие в предыдущие версии конструктора представлений источников данных, больше не предоставляются. Рекомендуется заранее выявить промежутки в данных временных рядов, используя профилировщик данных, входящий в состав служб Службы Integration Services, и другие средства.

Идентификация ключа времени для модели прогнозирования

  1. В области SalesByRegion.dsv [Design], щелкните правой кнопкой мыши таблицу vTimeSeries и выберите Просмотр данных.

    Откроется новая вкладка под названием Просмотр таблицы vTimeSeries.

  2. На таблицы Проверьте данные, используемые в столбцах TimeIndex и Reporting Date.

    Оба столбца представляют собой последовательности уникальных значений. Любой из них может служить ключом временного ряда, однако типы данных в этих столбцах различаются. Алгоритм временных рядов Майкрософт не требует datetime тип данных, только что значения были отличающимися и упорядоченными. Поэтому в качестве ключа времени для модели прогнозирования может быть использован любой столбец.

  3. В области конструктора представления источника данных выберите столбец Reporting Date и Свойства. Затем щелкните столбец TimeIndex и выберите Свойства.

    Поле TimeIndex имеет тип данных System.Int32, в то время как поле Reporting Date имеет тип данных System.DateTime. Во многих хранилищах данных значения даты и времени преобразуются в целые числа, и целочисленный столбец служит ключом, что повышает производительность индексирования. Однако если использовать такой столбец, то алгоритм временных рядов (Майкрософт) будет составлять прогнозы, используя значения из будущего: 201014, 201014 и т. д. Поскольку необходимо представить прогноз с использованием календарных дат данных продаж, будет использовать столбец Reporting Date в качестве уникального идентификатора последовательности.

Задание ключа в представлении источников данных

  1. В области SalesByRegion.dsv, выберите таблицу vTimeSeries.

  2. Щелкните правой кнопкой мыши столбец Reporting Date и выберите задать логический первичный ключ.

Обработка отсутствующих данных (необязательно)

Если в каком-либо ряду имеются отсутствующие данные, то при попытке обработать модель может быть выдана ошибка. Устранить эту проблему можно несколькими способами.

  • Службы Analysis Services могут заполнить отсутствующее значение вычисленным средним или предыдущим значением. Для этого необходимо задать параметр MISSING_VALUE_SUBSTITUTION при создании модели интеллектуального анализа данных. Дополнительные сведения об этом параметре см. в разделе Технический справочник Microsoft временных рядов алгоритма. Сведения о способах изменения параметров существующей модели интеллектуального анализа данных см. в разделе представление или изменить параметры алгоритма.

  • Можно изменить источник данных или отфильтровать базовое представление, чтобы устранить неоднородность ряда или заменить значения. Это можно сделать в реляционном источнике данных. Также можно изменить представление источников данных, создавая пользовательские именованные запросы или именованные вычисления. Дополнительные сведения см. в разделе Представления источников данных в многомерных моделях. Последняя задача этого занятия представляет пример того, как построить именованный запрос и пользовательское вычисление.

В этом случае некоторые данные отсутствуют в начале одного ряда: то есть нет данных для строки продукта T1000 до июля 2007 г. Все ряды заканчиваются в одну дату, и других отсутствующих значений нет.

Является требованием алгоритма временных рядов, что все ряды, включенные в одной модели должен использоваться одинаковый конца точки. Поскольку модель велосипеда T1000 появилась в 2007 г., данные для этого ряда начинаются позже, чем для других моделей велосипедов, но ряд заканчивается на ту же дату, поэтому данные являются приемлемыми.

Закрытие конструктора представлений источников данных

  • Щелкните правой кнопкой мыши вкладку Просмотр таблицы vTimeSeries, и выберите Закрыть.

Следующая задача занятия

Создание структуры прогнозирования и модели ( учебник по интеллектуальному анализу данных — средний )

См. также:

Алгоритм временных рядов (Майкрософт)