了解时序模型中的趋势(数据挖掘中级教程)

您查看基于聚合数据创建的各个模型时,会发现趋势和预测线看起来差异很大,具体取决于您是否跨不同模型和区域汇总了金额和数量,或者您是否对这些数字求取了平均值。

在决定将哪个模型用作进行全球范围内预测的通用模型之前,您需要查看基础数据以及预测图表,以便更好地了解预测。

您注意到,趋势线在 2002 年 6 月之前始终重叠,此时数量线和金额线分离。然后,在 2008 年 7 月趋势线再次分离。

在本任务中,您将基于原始数据源视图创建一个命名计算,以帮助您跟踪数量和价格之间的关系。然后,将创建一个包含此比率的透视图,以帮助您了解趋势线中的拆分。

查看基础数据

创建命名计算

  1. 解决方案资源管理器中展开“数据源视图”,然后双击 SalesByRegion.dsv

  2. 右键单击表 vTimeSeries 并选择**“新建命名计算”**。

  3. 在**“创建命名计算”框中,对于“名称”**,请键入 UnitAmt。

  4. 在**“表达式”文本框中,键入 Amount/Quantity。单击“确定”**。

    vTimeSeries 表随即包含一个额外的计算列 UnitAmt。此计算列仅存储在数据挖掘项目的数据源视图定义中,不会影响基础关系数据库视图。

使用命名计算创建透视图

  1. 右键单击表 vTimeSeries 并选择**“浏览数据”**。

  2. 在**“浏览 vTimeSeries 表”选项卡中,单击选项卡“透视表”**。

  3. 将 TimeIndex 字段从**“数据透视表字段列表”框中拖放到透视表设计图面中标有“将列字段拖至此处”**的位置。

  4. 将 ModelRegion 字段从**“数据透视表字段列表”框中拖放到透视表设计图面中标有“将行字段拖至此处”**的位置。

  5. 将 UnitAmt 字段从**“数据透视表字段列表”框中拖放到透视表设计图面中标有“将汇总或明细字段拖至此处”**的位置。

查看聚合模型

从透视表中,可以看到多个时间点处的每单位的销售量发生了重大变化,其原因可能是产品价格的变化。在 2007 年 7 月,将新型号 T1000 添加到所有区域时,又发生了另外一个重大变化。所有这些变化都会影响模型中计算的趋势。通用模型之所以有用,是因为它可以最大限度地减少任一变化所带来的影响。但是,在某些方案中,您可能会决定为新的存储创建单独的模型,以便这些存储中的数据不会影响趋势。

对于本教程,您将挑选一个应用于销售预测的聚合模型。请记住,您创建了四个不同的挖掘模型,每个模型都基于不同的聚合度量值。您将使用时序查看器中提供的工具以及之前创建的透视表来指导此决定。下图显示了为聚合模型创建的时序图表。两条灰色序列线显示平均数,两条绿色序列线显示总和。

聚合度量值的四种模型

在决定将哪个挖掘模型用于销售预测之前,您应该调查以下几点:

  • 基于 Amount 的挖掘模型呈上升趋势,而基于 Quantity 的模型则呈循环下降趋势。

  • 基于平均金额 (AvgAmt) 的预测与基于总量 (SumQty) 的预测相差甚远。

  • 尽管三个模型中的趋势线在 5 次预测之后呈水平趋势,但基于总量的模型中的趋势线继续呈急剧上升趋势。

您可以查看以下三项内容以获取详细信息。首先,选中**“显示偏差”**复选框,以显示每个预测的标准偏差。误差线越长,表示预测值中的偏差就越大。

其次,注意 Y 轴的单位是百分比;另外,还要注意图形变化的幅度取决于图表中的数据。默认情况下,Microsoft 时序查看器会自动调整百分比轴上的单位,以使图表最易于查看。因此,如果您需要使用特定刻度或固定刻度,应该使用预测查询来创建和导出各值,然后在其他应用程序(如 Microsoft Excel)中创建图形。

最后,可以使用时序模型的决策树视图来了解模型中的拆分。在时序模型中,拆分(或决策树中的分支)可以表示趋势线的斜率在某一点变化显著,也可以表示树基于某些其他条件进行了分支。利用将这些拆分显示为树视图中的节点的视图,可以向下钻取导致拆分的详细信息。

查看每个序列的决策树

  1. 解决方案资源管理器中展开“数据源视图”,然后右键单击 AllRegions.dsv

  2. 右键单击表 vTimeSeries 并选择**“浏览数据”**。

  3. 在**“浏览 vTimeSeries 表”选项卡中,单击选项卡“透视表”**。

  4. 将 ReportingDate 字段从**“数据透视表字段列表”框中拖放到透视表设计图面中标有“将列字段拖至此处”**的位置。

  5. 将 Region 字段从**“数据透视表字段列表”框中拖放到透视表设计图面中标有“将行字段拖至此处”**的位置。

  6. 将 UnitAmt 字段从**“数据透视表字段列表”框中拖放到透视表设计图面中标有“将汇总或明细字段拖至此处”**的位置。

了解下面一点也很重要:由于时序模型是使用移动平均值计算得到的,因此数据序列末尾处的数据值与数据序列开始处的数据值相比,前者可以对预测产生更大的影响。此外,您在生成模型时提供的周期提示也会对一段时间内平均值的使用方式产生影响。

结语

基于此分析,您可了解到以下几项内容:

  • 由于对于某些存储来说绝对值可能会很低,因此数量本身不稳定;此外,由于图表视图将数字表示为百分比,因此也易于夸大差异。

  • 金额似乎更不稳定,其原因是金额是由数量决定的,而且还受价格变化的影响。

  • M200 North America 序列预测中的强劲上升趋势是由以下因素引起的:此产品和区域组合的销售额在接近历史数据末尾时非常高。

通过深入浏览数据和各个模型,您会很满意地找到可靠的模型。如果业务用户要求对此分析进行论证,您可以通过使用信息提示中提供的统计数据或者通过浏览或查询模型内容来获取公式和支持数据。

在下一课中,您将使用基于平均数量的模型来对所有区域中的数量进行预测。