Отчет перекрестной проверки (службы Analysis Services — интеллектуальный анализ данных)
В процессе перекрестной проверки структуры интеллектуального анализа данных разбиваются на перекрестные разделы, после чего выполняется циклическое обучение и проверка моделей по каждому разрезу данных. Для разбиения данных указывается несколько секций, и каждая секция, в свою очередь, играет роль проверочных данных, тогда как остальные данные используются для обучения новой модели. Затем в службах Службы Analysis Services для каждой модели формируется набор стандартных показателей точности. Сравнивая показатели моделей, созданных для каждого разреза, можно получить хорошее представление о том, насколько верна модель интеллектуального анализа для всего набора данных.
Примечание |
---|
Перекрестную проверку нельзя использовать с моделями, содержащими столбцы KEY TIME или KEY SEQUENCE. |
В данном разделе поясняются сведения, представленные в отчете Перекрестная проверка на вкладке Диаграмма точности интеллектуального анализа данных в конструкторе интеллектуального анализа данных. Дополнительные сведения о создании отчета см. в разделе Вкладка «Перекрестная проверка» (просмотр диаграммы точности интеллектуального анализа данных).
Создание отчета о перекрестной проверке
Для перекрестной проверки моделей интеллектуального анализа данных, связанных со структурой интеллектуального анализа данных, соответствующие приведенные ниже параметры настраиваются на вкладке Перекрестная проверка в представлении диаграммы точности интеллектуального анализа в конструкторе интеллектуального анализа или с помощью следующих хранимых процедур перекрестной проверки.
Укажите число сверток.
Укажите максимальное число вариантов, используемых в перекрестной проверке. Это число делится на количество сверток.
Укажите прогнозируемый столбец. (Необязательно) Укажите прогнозируемое состояние.
Примечание |
---|
Если структура интеллектуального анализа данных содержит модели кластеризации, то вместо выбора прогнозируемого столбца укажите #Cluster. В отчете возвращаются результаты только для моделей кластеризации. |
- (Необязательно) Задайте параметры, управляющие оценкой точности прогноза.
Создание набора данных для перекрестной проверки
При использовании вкладки Перекрестная проверка в представлении Диаграмма точности интеллектуального анализа данных управлять объемом и типом данных, используемых для перекрестной проверки, можно двумя способами: указать количество сверток или ограничить количество вариантов. По умолчанию при перекрестной проверке в среде Business Intelligence Development Studio для каждой модели используются обучающие варианты. Если с моделью связан какой-либо фильтр, он применяется.
Значение параметра Количество сверток задает номер создаваемых разрезов данных. Каждая свертка используется в качестве набора проверочных данных, а данные остальных сверток применяются для обучения новой модели. Таким образом, при минимальном значении, равном 2, половина набора данных будет использоваться для проверки, вторая половина — для обучения.
Если структура интеллектуального анализа данных не сохраняется в экземпляре служб Службы Analysis Services, но создается как временная или сеансовая структура, то максимально допустимое число сверток — 10. Если структура интеллектуального анализа данных сохраняется в экземпляре Службы Analysis Services, то нельзя создавать число сверток, превышающее число вариантов. Если количество вариантов меньше, чем заданное в параметре «Количество сверток», то используется меньшее значение.
Примечание |
---|
При увеличении количества сверток также увеличивается и время, необходимое для выполнения перекрестной проверки, поскольку для каждой свертки необходимо создать и проверить модель. Если число сверток слишком высоко, то могут возникнуть проблемы с производительностью. |
Значение Максимальное число вариантов задает общее количество вариантов во всех свертках, которые можно использовать в перекрестной проверке. Поэтому количество вариантов в любой отдельной свертке можно вычислить как отношение значения Максимальное число вариантов к значению Количество сверток. По умолчанию используется значение 0, то есть используются все варианты структуры интеллектуального анализа данных.
При выполнении перекрестной проверки с помощью одной из хранимых процедур значения свойств FoldCount и MaxCases передаются в эту хранимую процедуру в виде параметров.
Примечание |
---|
При использовании хранимых процедур перекрестной проверки можно установить параметр DataSet, определяющий набор данных для проверки. Возможными наборами данных могут быть только обучающий набор, обучающий и проверочный наборы, а также сочетания обучающего и проверочного набора с фильтрами модели интеллектуального анализа данных. Дополнительные сведения см. в разделе SystemGetCrossValidationResults (службы Analysis Services — интеллектуальный анализ данных). |
Выбор моделей и столбцов для проверки
При использовании вкладки Перекрестная проверка конструктора интеллектуального анализа данных сначала нужно выбрать прогнозируемый столбец из списка. Как правило, в структурах интеллектуального анализа данных поддерживается нескольких моделей интеллектуального анализа, при этом не во всех используется один и тот же прогнозируемый столбец. При выполнении перекрестной проверки в отчет могут быть включены только те модели, в которых используется один и тот же прогнозируемый столбец.
Чтобы выбрать прогнозируемый атрибут, щелкните поле Целевой атрибут и выберите в списке нужный столбец. Если целевой атрибут представляет собой вложенный столбец или столбец вложенной таблицы, то имя вложенного столбца следует указать в формате <Имя вложенной таблицы>(ключ).<Вложенный столбец>. Если единственным столбцом, используемым во вложенной таблице, является ключевой столбец, то его можно указать как <Имя вложенной таблицы>(ключ).
Примечание. Использование хранимых процедур дает больше возможностей управления проверяемыми моделями. Дополнительные сведения см. в разделе SystemGetCrossValidationResults (службы Analysis Services — интеллектуальный анализ данных).
После выбора прогнозируемого атрибута службы Службы Analysis Services автоматически выполняют проверку всех моделей, в которых используется этот прогнозируемый атрибут.
При наличии в целевом атрибуте дискретных значений после выбора прогнозируемого столбца при необходимости можно указать целевое состояние, если имеется определенное значение, которое нужно спрогнозировать.
Выбор целевого состояния влияет на возвращаемые меры. Если указать целевой атрибут — то есть имя столбца — и при этом не указать определенное значение, которое необходимо спрогнозировать, то оценка модели будет выполнена на основе прогноза наиболее вероятного состояния.
При перекрестной проверке в модели кластеризации прогнозируемые столбцы не указываются; вместо этого в списке Целевой атрибут прогнозируемых атрибутов нужно выбрать #Кластер. После того как был выбран Кластер, другие параметры, не связанные с моделями кластеризации, например Целевое состояние, отключаются. Службы Службы Analysis Services автоматически выполнят проверку всех моделей кластеризации, связанных со структурой интеллектуального анализа данных.
Задание порога точности
Управлять стандартом измерения точности прогнозов можно с помощью значения Целевой порог. Порог представляет собой разновидность диаграммы точности. Каждому прогнозу присваивается вероятность достоверности прогнозируемого значения. Таким образом, если значение Целевой порог близко к 1, то вероятность в любых определенных прогнозах должна быть довольно высокой, чтобы прогноз считался хорошим. И наоборот, если параметру Целевой порог присвоено значение, близкое к 0, то даже прогнозы с невысокими значениями вероятности будут считаться «хорошими».
Рекомендованных пороговых значений нет, поскольку вероятность в любом прогнозе зависит от имеющихся данных и типа составляемого прогноза. Чтобы построить диаграмму точности для своих данных, изучите несколько прогнозов с разными уровнями вероятности. Данный шаг важен, поскольку значение, заданное для параметра Целевой порог, существенно влияет на измеряемую точность модели.
Например, есть структура с тремя моделями, для которых целевое состояние прогнозируется с вероятностью соответственно 0,05, 0,15 и 0,8. Если порогу задано значение 0,5, правильным будет считаться только один прогноз. Если параметру Целевой порог присвоено значение 0,10, то правильными будут считаться два прогноза.
Если параметру Целевой порог присвоено значение null, являющееся значением по умолчанию, то в качестве целевого используется наиболее вероятное состояние. В приведенном выше примере прогноз всех трех моделей будет верен. Таким образом, при сравнении моделей необходимо учитывать порог, используемый для каждого экземпляра перекрестной проверки. Кроме того, для всех вариантов конкретной модели можно предположить средние вероятности посредством мер среднего правдоподобия и корня среднеквадратичной погрешности, имеющихся в отчете по перекрестной проверке.
Ограничения при использовании вкладки перекрестной проверки
Если перекрестная проверка выполняется посредством составления отчета о перекрестной проверке в среде Business Intelligence Development Studio, то для проверяемых моделей и устанавливаемых параметров имеются некоторые ограничения.
По умолчанию перекрестной проверке подвергаются все модели, связанные с выбранной структурой интеллектуального анализа данных. Отдельную модель или список моделей указать нельзя.
Перекрестная проверка не поддерживается для моделей, основанных на алгоритмах временных рядов (Майкрософт) или последовательной кластеризации (Майкрософт).
Создание отчета невозможно, если структура интеллектуального анализа данных не содержит ни одной модели, для которой допускается перекрестная проверка.
Если в структуре интеллектуального анализа данных содержатся как модели кластеризации, так и другие модели, и не был выбран параметр #Кластер, то результаты обоих типов моделей отображаются в одном и том же отчете, несмотря на то что настройки атрибута, состояния и порога могут не соответствовать моделям кластеризации.
Значения некоторых параметров ограничены. Так, например, если количество сверток превышает 10, то отображается предупреждение, поскольку создание такого большого количества моделей приведет к замедленному отображению отчета.
При необходимости установить дополнительные настройки следует использовать хранимые процедуры перекрестной проверки. Дополнительные сведения см. в разделе Хранимые процедуры интеллектуального анализа данных (службы Analysis Services — интеллектуальный анализ данных).
Результаты перекрестной проверки
После того как заданы параметры и нажата кнопка Обновить, в сетке результатов отображаются результаты перекрестной проверки. В данном разделе поясняется содержимое каждого столбца сетки результатов.
Кроме некоторых основных сведений о количестве сверток данных и объеме данных в каждой свертке, службы Службы Analysis Services отображают для каждой модели набор метрик, разбитых на группы по типу. Следующая таблица содержит проверки и метрики с объяснением значений каждой метрики.
Тип проверки |
Меры и описания |
---|---|
Кластеризация |
Правдоподобие вариантаОбозначает вероятность принадлежности варианта определенному кластеру.
|
Классификация |
Истинный положительный результатПодсчет вариантов, удовлетворяющих этим условиям.
Ложный положительный результатПодсчет вариантов, удовлетворяющих этим условиям.
Истинный отрицательный результатПодсчет вариантов, удовлетворяющих этим условиям.
Ложный отрицательный результатПодсчет вариантов, удовлетворяющих этим условиям.
|
Классификация |
Совпадение или неудачаПодсчет вариантов, удовлетворяющих этим условиям.
|
Правдоподобие |
Точность прогнозаОтношение фактической вероятности прогноза к граничной вероятности в проверочных вариантах. Данная метрика показывает степень улучшения вероятности при использовании модели.
Корень среднеквадратичной погрешностиОтношение квадратного корня из средней погрешности для всех вариантов секций к количеству вариантов в секции, исключая варианты с отсутствующими значениями.
Логарифмический рейтингЛогарифмы фактической вероятности для каждого варианта, просуммированные и деленные на число строк в наборе данных, за исключением строк с отсутствующими значениями. Поскольку вероятность представляется в виде десятичной дроби, логарифмическая оценка всегда является отрицательным числом. Чем ближе это число к 0, тем лучше прогноз.
|
Оценка |
Корень среднеквадратичной погрешностиСредняя погрешность спрогнозированного значения относительно фактического значения, выраженная в виде квадратного корня из средней суммы квадратичных отклонений.
Средняя абсолютная погрешностьСредняя погрешность спрогнозированного значения относительно фактического значения, выраженная в виде среднего значения абсолютной суммы ошибок.
Логарифмический рейтингЛогарифмический рейтинг вероятности для прогноза: логарифмы фактической вероятности для каждого варианта, просуммированные и деленные на число строк в наборе данных, за исключением строк с отсутствующими значениями. Поскольку вероятность представляется в виде десятичной дроби, логарифмическая оценка всегда является отрицательным числом. Чем ближе это число к 0, тем лучше прогноз. Тогда как необработанные рейтинги могут содержать очень нерегулярные и асимметричные распределения, логарифмический рейтинг подобен процентным долям.
|
Статистические вычисления Статистические меры отображают дисперсию в результатах по каждой секции. |
СреднееСредние значения секций по конкретным мерам.
Стандартное отклонениеСреднее отклонение из среднего арифметического по конкретной мере, с учетом всех секций модели.
|
Примечание |
---|
Эти меры точности вычисляются для каждого целевого атрибута, при этом для каждого атрибута можно указать или пропустить целевое значение. Некоторые записи могут не обладать значением целевого атрибута, что рассматривается как особый вариант, называемый отсутствующим значением. Строки, значения которых отсутствуют, не считаются при расчете меры точности для конкретного целевого атрибута. Кроме того, поскольку оценки вычисляются отдельно для каждого атрибута, если для целевого атрибута присутствуют значения, которые при этом отсутствуют для других атрибутов, то это не отражается на оценке этого целевого атрибута. |
См. также