8、数据挖掘与模型构建中的数据处理-优快云博客

本文链接：https://blog.youkuaiyun.com/snow3/article/details/151003429

数据挖掘与模型构建中的数据处理

1. 配对变量评估的数据挖掘方法

在模型构建过程中，评估预测变量和因变量之间的关系是一项关键任务。目前常用的方法是基本（原始数据）散点图和平滑散点图。然而，随着大数据时代的到来，数据中包含了大量有价值的元素，但也使得散点图变得数据过载，信息过多反而导致其信息量降低。

为了挖掘数据过载散点图中的信息，我们回顾了平滑散点图，它可以揭示原始数据散点图中潜在的关系。同时，我们提出了一种基于CHAID的配对变量评估数据挖掘方法，这是一种获得更平滑散点图的新技术，它能比平滑散点图更可靠地描绘出潜在关系。平滑散点图使用原始数据的平均值，而更平滑散点图使用CHAID终端节点拟合值的平均值。

以下是CHAID回归树的部分节点信息：
| 节点 | HI_BALANCE条件 | N | RECENCY_MOS | 标准差 |
| — | — | — | — | — |
| 2 | ≤ 4.9070826 | 462 | 261.39 | 111.09 |
| 1（整个组） | - | 2000 | 233.44 | 98.81 |
| 5 | > 1.3517707 | 277 | 253.44 | 110.89 |
| 6 | ≤ 2.5368747 | 125 | 259.71 | 97.31 |
| 7 | > 2.5368747 | 152 | 248.28 | 120.68 |
| 8 | ≤ 3.7219786 | 83 | 247.05 | 123.21 |
| 9 | > 3.7219786 | 69 | 249.77 | 117.55 |