Алгоритмы интеллектуального анализа данных
Алгоритм интеллектуального анализа данных представляет собой механизм, создающий модели интеллектуального анализа данных. Чтобы создать модель, алгоритм сначала анализирует набор данных, осуществляя поиск определенных закономерностей и трендов. Затем алгоритм использует результаты этого анализа для определения параметров модели интеллектуального анализа данных.
Модель интеллектуального анализа данных, созданная алгоритмом, может иметь различные формы, включая следующие.
- Набор правил, описывающих группирование продуктов в транзакции.
- Дерево принятия решений, прогнозирующее, купит ли конкретный заказчик продукт.
- Математическую модель, прогнозирующую продажи.
- Набор кластеров, описывающих связи вариантов в наборе данных.
Службы Microsoft SQL Server 2005 Analysis Services (SSAS) предоставляют несколько алгоритмов для использования в решениях интеллектуального анализа данных. Эти алгоритмы являются подмножеством всех алгоритмов, которые могут использоваться для интеллектуального анализа данных. Можно также использовать алгоритмы сторонних производителей, соответствующие спецификации OLE DB для интеллектуального анализа данных. Дополнительные сведения об алгоритмах сторонних производителей см. в разделе Подключаемые алгоритмы.
Просмотр алгоритмов
Службы Analysis Services включают следующие типы алгоритмов.
- Алгоритмы классификации осуществляют прогнозирование одной или нескольких дискретных переменных на основе других атрибутов в наборе данных. Примером алгоритма классификации является Алгоритм дерева принятия решений (Майкрософт).
- Регрессивные алгоритмы осуществляют прогнозирование одной или нескольких непрерывных переменных, например прибыли или убытков, на основе других атрибутов в наборе данных. Примером регрессивного алгоритма является Алгоритм временных рядов (Майкрософт).
- Алгоритмы сегментации делят данные на группы или кластеры элементов, имеющих схожие свойства. Примером алгоритма сегментации является Алгоритм кластеризации (Microsoft).
- Алгоритмы взаимосвязей осуществляют поиск корреляции между различными атрибутами в наборе данных. Наиболее частым применением этого типа алгоритма является создание правил взаимосвязи, которые могут использоваться для анализа потребительской корзины. Примером алгоритма взаимосвязей является Алгоритм взаимосвязей (Microsoft).
- Алгоритмы анализа последовательностей обобщают часто встречающиеся последовательности в данных, например поток данных в Интернете. Примером алгоритма анализа последовательностей является Алгоритм кластеризации последовательностей (Microsoft).
Применение алгоритмов
Выбор правильного алгоритма для использования в конкретной задаче может быть достаточно сложным. В то время как можно использовать различные алгоритмы для выполнения одной и той же задачи, каждый алгоритм выдает различный результат, а некоторые алгоритмы могут выдавать более одного типа результатов. Например, можно использовать алгоритм дерева принятия решений (Майкрософт) не только для прогнозирования, но также в качестве способа уменьшения количества столбцов в наборе данных, поскольку дерево принятия решений может идентифицировать столбцы, не влияющие на конечную модель интеллектуального анализа данных.
Также необязательно использовать алгоритмы независимо. В одном решении интеллектуального анализа данных можно использовать одни алгоритмы для просмотра данных, а затем использовать другие для прогнозирования конкретного результата на основе этих данных. Например, можно использовать алгоритм кластеризации, распознающий закономерности, для разделения данных на группы, являющиеся более или менее однородными, а затем использовать эти результаты для создания более точной модели дерева принятия решений. Можно использовать несколько алгоритмов в одном решении для выполнения различных задач, например алгоритм дерева принятия решений для получения данных для финансового прогнозирования и алгоритм на основе правил для выполнения анализа потребительской корзины.
Модели интеллектуального анализа данных могут прогнозировать значения, создавать обобщения данных и находить скрытые корреляции. Для облегчения выбора алгоритмов для решения интеллектуального анализа данных в следующей таблице приведены рекомендации по использованию алгоритмов для конкретных задач.
Задача | Алгоритм Майкрософт для использования |
---|---|
Прогнозирование дискретного атрибута. Например, для прогнозирования того, купит ли получатель целевой рассылки продукт. |
Алгоритм дерева принятия решений (Майкрософт) Упрощенный алгоритм Байеса (Microsoft) |
Прогнозирование непрерывного атрибута. Например, для прогнозирования продаж на следующий год. |
|
Прогнозирование последовательности. Например, для выполнения анализа маршрута перемещения по веб-узлу компании. |
|
Нахождение групп общих элементов в транзакциях. Например, для использования анализа потребительской корзины для предложения дополнительных продуктов заказчику. |
|
Нахождение групп схожих элементов. Например, для сегментирования демографических данных в группы для улучшения понимания связей между атрибутами. |
Поскольку каждая модель возвращает различные типы результата, службы Analysis Services предоставляют отдельное средство просмотра для каждого алгоритма. При просмотре модели интеллектуального анализа данных в службах Analysis Services модель отображается на вкладке Средство просмотра моделей интеллектуального анализа данных конструктора интеллектуального анализа данных с использованием соответствующего средства просмотра для данной модели. Дополнительные сведения см. в разделе Просмотр модели интеллектуального анализа данных.
Подробные сведения об алгоритмах
Можно использовать функции для расширения результатов, возвращаемых моделью интеллектуального анализа данных. В следующей таблице содержится список функций, поддерживаемых всеми алгоритмами в службах Analysis Services.
Отдельные алгоритмы могут поддерживать дополнительные функции. Ни один из алгоритмов, предоставляемых корпорацией Майкрософт, не допускает дублирующиеся ключи.
См. также
Основные понятия
Основные понятия интеллектуального анализа данных
Структуры интеллектуального анализа данных (службы Analysis Services)
Алгоритм взаимосвязей (Microsoft)
Алгоритм кластеризации (Microsoft)
Алгоритм дерева принятия решений (Майкрософт)
Упрощенный алгоритм Байеса (Microsoft)
Алгоритм нейронной сети (Microsoft) (службы SSAS)
Алгоритм кластеризации последовательностей (Microsoft)
Алгоритм временных рядов (Майкрософт)
Алгоритм линейной регрессии (Microsoft)
Алгоритм логистической регрессии (Microsoft)
Подключаемые алгоритмы
Использование средств интеллектуального анализа данных
Другие ресурсы
Справочник по расширениям интеллектуального анализа данных