变量评估的两种基本数据挖掘方法及CHAID数据挖掘
1. 引言
在模型构建过程中,评估预测变量与因变量之间的关系至关重要。若能识别并处理这种关系,预测变量可重新表达以反映该关系,并被测试是否纳入模型。多数变量评估方法基于相关系数,但常被误用,其线性假设也常未经检验,导致系数的有效性未知。本文介绍两种基本数据挖掘方法:平滑散点图和通用关联非参数检验,前者用于检验线性假设,确保相关系数的正确使用;后者用于评估平滑散点图所指示的关系。
2. 相关系数
相关系数用 r 表示,衡量两个变量间直线或线性关系的强度,取值范围在 +1 到 -1 之间。以下是解释相关系数的常用准则:
| 相关系数值范围 | 关系说明 |
| — | — |
| 0 | 无线性关系 |
| +1 | 完全正线性关系:一个变量值增加,另一个变量值按精确线性规则增加 |
| -1 | 完全负线性关系:一个变量值增加,另一个变量值按精确线性规则减少 |
| 0 到 0.3(0 到 -0.3) | 弱正(负)线性关系,线性规则不稳定 |
| 0.3 到 0.7(0.3 到 -0.7) | 中等正(负)线性关系,线性规则模糊但确定 |
| 0.7 到 1.0(-0.7 到 -1.0) | 强正(负)线性关系,线性规则确定 |
| r 的平方 | 通常表示一个变量的变异被另一个变量解释的百分比,或两个变量共享的变异百分比 |
相关系数要求两个变量间的潜在关系为线性。若关系已知为线性或观察到的模式呈线性,相关系数能可靠衡量线性关系强度;若关系已知为非线性或观察到的模式非线性,相关系数则无用或至少值得怀疑。
超级会员免费看
订阅专栏 解锁全文
41

被折叠的 条评论
为什么被折叠?



