数据挖掘算法
数据挖掘算法是创建挖掘模型的机制。若要创建模型,算法将首先分析一组数据,查找特定模式和趋势。然后,算法将使用此分析的结果来定义挖掘模型的参数。
算法创建的挖掘模型可以采用多种形式,这包括:
- 说明在交易中如何将产品分组到一起的一组规则。
- 预测特定用户是否会购买某个产品的决策树。
- 预测销量的数学模型。
- 说明数据集中的事例如何相关的一组分类。
Microsoft SQL Server 2005 Analysis Services (SSAS) 提供了几个供您在数据挖掘解决方案中使用的算法。这些算法是所有可用于数据挖掘的算法的子集。您还可以使用符合 OLE DB for Data Mining 规范的第三方算法。有关第三方算法的详细信息,请参阅插件算法。
算法回顾
Analysis Services 包括了以下算法类型:
- 分类算法基于数据集中的其他属性预测一个或多个离散变量。分类算法的一个示例是 Microsoft 决策树算法。
- 回归算法基于数据集中的其他属性预测一个或多个连续变量,如利润或亏损。回归算法的一个示例是 Microsoft 时序算法。
- 分割算法将数据划分为组或分类,这些组或分类的项具有相似属性。分割算法的一个示例是 Microsoft 聚类分析算法。
- 关联算法查找数据集中的不同属性之间的相关性。这类算法最常见的应用是创建可用于市场篮分析的关联规则。关联算法的一个示例是 Microsoft 关联算法。
- 顺序分析算法汇总数据中的常见顺序或事件,如 Web 路径流。顺序分析算法的一个示例是 Microsoft 顺序分析和聚类分析算法。
应用算法
为特定的业务任务选择正确的算法很有挑战性。您可以使用不同的算法来执行同样的业务任务,每个算法会生成不同的结果,而某些算法还会生成多种类型的结果。例如,您不仅可以将 Microsoft 决策数算法用于预测,而且还可以将它用作一种减少数据集的列数的方法,因为决策树能够识别出不影响最终挖掘模型的列。
算法不必独立使用,在一个数据挖掘解决方案中可以使用一些算法来探析数据,而使用其他算法基于该数据预测特定结果。例如,可以使用聚类分析算法来识别模式,将数据细分成多少有点相似的组,然后使用分组结果来创建更好的决策数模型。可以在一个解决方案中使用多个算法来执行不同的任务,例如,使用回归树算法来获取财务预测信息,使用基于规则的算法来执行市场篮分析。
挖掘模型可以预测值、生成数据摘要并查找隐含的相关性。为帮助您选择用于数据挖掘解决方案的算法,下表给出了可为特定的任务使用哪些算法的建议。
任务 | 可使用的 Microsoft 算法 |
---|---|
预测离散属性。例如,预测目标邮件活动的收件人是否会购买某个产品。 |
|
预测连续属性。例如,预测下一年的销量。 |
|
预测顺序。例如,执行公司网站的点击流分析。 |
|
查找交易中的常见项的组。例如,使用市场篮分析来建议客户购买其他产品。 |
|
查找相似项的组。例如,将人口统计数据分割为组以便更好地理解属性之间的关系。 |
因为各个模型返回不同类型的结果,所以 Analysis Services 为每个算法提供单独的查看器。在 Analysis Services 中浏览挖掘模型时,该模型会使用模型的相应查看器,显示在数据挖掘设计器的**“挖掘模型查看器”**选项卡上。有关详细信息,请参阅查看数据挖掘模型。
算法详细信息
您可以使用函数来扩展挖掘模型返回的结果。下表列出了 Analysis Services 中的所有算法都支持的函数。
个别算法可能还支持其他的函数。Microsoft 提供的算法都不允许有重复键。
请参阅
概念
数据挖掘概念
挖掘结构 (Analysis Services)
Microsoft 关联算法
Microsoft 聚类分析算法
Microsoft 决策树算法
Microsoft Naive Bayes 算法
Microsoft 神经网络算法 (SSAS)
Microsoft 顺序分析和聚类分析算法
Microsoft 时序算法
Microsoft 线性回归算法
Microsoft 逻辑回归算法
插件算法
使用数据挖掘工具