添加聚合预测模型(数据挖掘中级教程)

通过浏览预测模型,您发现尽管大多数区域的销售额都遵循一个模式,但是某些区域和某些型号(例如,太平洋地区的 M200 型号)却呈现出完全不同的趋势。区域之间的差异很常见,可以由多种因素引起,其中包括市场促销、错误的报告或地理政治事件。

为了将这些因素对预测所造成的影响降至最低,您决定生成一个基于全球范围内销售额的聚合度量值的通用挖掘模型。然后,您可以使用此模型作出预测,并将预测应用于各个区域。最后,将比较根据各个产品创建的预测。

创建用于通用模型的数据

创建通用模型的第一步是聚合全球范围内的销售额数据。通过创建一个使用现有数据源但执行求和或求平均值等计算的特殊数据源视图来实现此目的。

使用自定义查询或计算来创建数据源视图

  1. 解决方案资源管理器中,右键单击**“数据源视图”,然后选择“新建数据源视图”**。

  2. 在向导的欢迎页上,单击**“下一步”**。

  3. 在**“选择数据源”页上,选择 Adventure Works DW2008R2,单击“下一步”**。

  4. 在**“选择表和视图”页上,单击“下一步”**。

  5. 在**“完成向导”页上,键入名称 AllRegions,然后单击“完成”**。

  6. 接下来,右键单击空白数据源视图设计图面,然后选择**“新建命名查询”**。

  7. 在**“创建命名查询”对话框中,对于“名称”,请键入 AllRegions,对于“说明”**,请键入 Sum and average of sales for all models and regions。

  8. 在 SQL 文本窗格中,键入下面的语句:

    SELECT ReportingDate, 
    SUM([Quantity]) as SumQty, AVG([Quantity]) as AvgQty,
    SUM([Amount]) AS SumAmt, AVG([Amount]) AS AvgAmt,
    'All Regions' as [Region]
    FROM dbo.vTimeSeries 
    GROUP BY ReportingDate
    
  9. 单击“确定”。.

  10. 右键单击 AllRegions 表,然后选择**“浏览数据”**。

    新的数据源视图包含所有产品在全球范围内的销售额的总和以及平均值。还可以根据模型对销售额进行分组和聚合销售额,但为了实现本教程的目的,您将创建一个时序模型,您可用它来预测区域或产品的任意组合。

创建数据的视图后,您必须生成新的挖掘结构,然后基于该结构生成挖掘模型。至此,您应该已经熟悉了如何生成挖掘结构。因此,下面的说明进行了简化。

使用聚合数据生成挖掘结构和挖掘模型

  1. 在**“解决方案资源管理器”中,右键单击“挖掘结构”,然后选择“新建挖掘结构”**以启动数据挖掘向导。

  2. 在数据挖掘向导中,进行以下选择:

    • 算法:Microsoft 时序

    • 数据源视图:AllRegions

    • 键:ReportingDate (Key Time) 和 Region (Key)

    • Input 和 Predict:AvgAmt、AvgQty、SumAmt 和 SumQty

    • 挖掘结构名称:All Regions

    • 挖掘模型名称:All Regions

  3. 处理结构和模型。

查看结果

在决定将哪个模型用作进行全球范围内预测的通用模型之前,您应该更好地了解预测。在 Microsoft 时序查看器中查看各聚合序列的挖掘模型和预测时,会想到以下几个问题:

  • 在 2006 年 6 月之前,每条趋势线几乎都遵循相同的模式。在该点处,数量线和金额线开始分离。什么导致了此变化?

  • 在 2008 年 7 月,趋势线再次分离。发生了什么?

  • 请注意,M200 North America 序列的预测比其他产品和区域的预测高很多。您担心这些预测可能不准确,并且担心包含此序列可能会影响创建的通用模型。

在接下来的任务中,您将各个序列模型的趋势线和预测与基于聚合数据的模型进行比较,以查看基础数据是如何影响该模型的。

如果您对该模型的准确性比较满意,并且认为无需再深入了解结果,则可以跳过任务使用平均预测模型进行预测(数据挖掘中级教程)