Основные сведения о требованиях для модели временных рядов (учебник по интеллектуальному анализу данных — средний уровень)
Применимо к: SQL Server 2016 Preview
Данные для модели прогнозирования при подготовке должны содержать один столбец, который может быть использован для идентификации этапов временных рядов. Этот столбец будет использоваться в качестве Key Time столбца. Этот столбец является ключом и должен содержать уникальные числовые значения.
Правильный выбор единицы для Key Time столбец является важной частью анализа. Например, пусть данные о продажах обновляются каждую минуту. В качестве единицы временного ряда не обязательно использовать минуты. Более разумно будет сводить данные о продажах по дням, неделям или месяцам. Если непонятно, какую единицу времени следует использовать, можно создать новое представление источника данных для каждого статистического выражения и построить связанные модели, чтобы посмотреть, не появляются ли разные тренды на каждом уровне статистической обработки.
В этом учебнике данные о продажах собираются ежедневно и заносятся в транзакционную базу данных продаж, но для интеллектуального анализа данные заранее объединены по месяцам с использованием представления.
Кроме того, для анализа желательно, чтобы в данных было как можно меньше промежутков. Если планируется анализ нескольких рядов данных, то желательно, чтобы все ряды начинались с одной даты и заканчивались одной датой. Если в данных имеются промежутки (кроме как в начале и в конце ряда), то для заполнения ряда можно использовать параметр MISSING_VALUE_SUBSTITUTION. Службы Analysis Services также предоставляет несколько возможностей замены отсутствующих данных средними значениями или константами.
Предупреждение
Сводная диаграмма и сводная таблица, входившие в предыдущие версии конструктора представлений источников данных, больше не предоставляются. Рекомендуется заранее выявить промежутки в данных временных рядов, используя профилировщик данных, входящий в состав служб Службы Integration Services, и другие средства.
Идентификация ключа времени для модели прогнозирования
В области SalesByRegion.dsv [Design], щелкните правой кнопкой мыши таблицу vTimeSeries и выберите Просмотр данных.
Откроется новая вкладка под названием Просмотр таблицы vTimeSeries.
На таблицы Проверьте данные, используемые в столбцах TimeIndex и Reporting Date.
Оба столбца представляют собой последовательности уникальных значений. Любой из них может служить ключом временного ряда, однако типы данных в этих столбцах различаются. Алгоритм временных рядов Майкрософт не требует datetime тип данных, только что значения были отличающимися и упорядоченными. Поэтому в качестве ключа времени для модели прогнозирования может быть использован любой столбец.
В области конструктора представления источника данных выберите столбец Reporting Date и Свойства. Затем щелкните столбец TimeIndex и выберите Свойства.
Поле TimeIndex имеет тип данных System.Int32, в то время как поле Reporting Date имеет тип данных System.DateTime. Во многих хранилищах данных значения даты и времени преобразуются в целые числа, и целочисленный столбец служит ключом, что повышает производительность индексирования. Однако если использовать такой столбец, то алгоритм временных рядов (Майкрософт) будет составлять прогнозы, используя значения из будущего: 201014, 201014 и т. д. Поскольку необходимо представить прогноз с использованием календарных дат данных продаж, будет использовать столбец Reporting Date в качестве уникального идентификатора последовательности.
Задание ключа в представлении источников данных
В области SalesByRegion.dsv, выберите таблицу vTimeSeries.
Щелкните правой кнопкой мыши столбец Reporting Date и выберите задать логический первичный ключ.
Обработка отсутствующих данных (необязательно)
Если в каком-либо ряду имеются отсутствующие данные, то при попытке обработать модель может быть выдана ошибка. Устранить эту проблему можно несколькими способами.
Службы Analysis Services могут заполнить отсутствующее значение вычисленным средним или предыдущим значением. Для этого необходимо задать параметр MISSING_VALUE_SUBSTITUTION при создании модели интеллектуального анализа данных. Дополнительные сведения об этом параметре см. в разделе Технический справочник Microsoft временных рядов алгоритма. Сведения о способах изменения параметров существующей модели интеллектуального анализа данных см. в разделе представление или изменить параметры алгоритма.
Можно изменить источник данных или отфильтровать базовое представление, чтобы устранить неоднородность ряда или заменить значения. Это можно сделать в реляционном источнике данных. Также можно изменить представление источников данных, создавая пользовательские именованные запросы или именованные вычисления. Дополнительные сведения см. в разделе Представления источников данных в многомерных моделях. Последняя задача этого занятия представляет пример того, как построить именованный запрос и пользовательское вычисление.
В этом случае некоторые данные отсутствуют в начале одного ряда: то есть нет данных для строки продукта T1000 до июля 2007 г. Все ряды заканчиваются в одну дату, и других отсутствующих значений нет.
Является требованием алгоритма временных рядов, что все ряды, включенные в одной модели должен использоваться одинаковый конца точки. Поскольку модель велосипеда T1000 появилась в 2007 г., данные для этого ряда начинаются позже, чем для других моделей велосипедов, но ряд заканчивается на ту же дату, поэтому данные являются приемлемыми.
Закрытие конструктора представлений источников данных
- Щелкните правой кнопкой мыши вкладку Просмотр таблицы vTimeSeries, и выберите Закрыть.