数据挖掘与模型构建中的数据处理
1. 配对变量评估的数据挖掘方法
在模型构建过程中,评估预测变量和因变量之间的关系是一项关键任务。目前常用的方法是基本(原始数据)散点图和平滑散点图。然而,随着大数据时代的到来,数据中包含了大量有价值的元素,但也使得散点图变得数据过载,信息过多反而导致其信息量降低。
为了挖掘数据过载散点图中的信息,我们回顾了平滑散点图,它可以揭示原始数据散点图中潜在的关系。同时,我们提出了一种基于CHAID的配对变量评估数据挖掘方法,这是一种获得更平滑散点图的新技术,它能比平滑散点图更可靠地描绘出潜在关系。平滑散点图使用原始数据的平均值,而更平滑散点图使用CHAID终端节点拟合值的平均值。
以下是CHAID回归树的部分节点信息:
| 节点 | HI_BALANCE条件 | N | RECENCY_MOS | 标准差 |
| — | — | — | — | — |
| 2 | ≤ 4.9070826 | 462 | 261.39 | 111.09 |
| 1(整个组) | - | 2000 | 233.44 | 98.81 |
| 5 | > 1.3517707 | 277 | 253.44 | 110.89 |
| 6 | ≤ 2.5368747 | 125 | 259.71 | 97.31 |
| 7 | > 2.5368747 | 152 | 248.28 | 120.68 |
| 8 | ≤ 3.7219786 | 83 | 247.05 | 123.21 |
| 9 | > 3.7219786 | 69 | 249.77 | 117.55 |
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



