利用CHAID确定含交互变量的模型
1. 引言
在数据分析中,为了提升模型的预测能力,数据分析师常常会创建交互变量,它是两个或多个组成变量的乘积。不过,有一种颇具说服力的方法——CHAID(卡方自动交互检测),可作为一种替代的数据挖掘方法来确定模型,并且在某些情况下能合理地省略组成变量。以数据库营销为例,下面将通过一个响应模型案例研究来详细阐述这种替代方法。
2. 交互变量
2.1 交互变量的定义
假设有变量 $X_1$ 和 $X_2$,它们的乘积 $X_1X_2$ 被称为双向或一阶交互变量。该交互变量的一个显著特性是,其信息或方差与 $X_1$ 和 $X_2$ 共享,即 $X_1X_2$ 与 $X_1$ 和 $X_2$ 存在内在的高度相关性。
若引入第三个变量 $X_3$,那么三个变量的乘积 $X_1X_2X_3$ 则被称为三向或二阶交互变量,它同样与每个组成变量高度相关。通过简单地将组成变量相乘,还能创建更高阶的变量。然而,理论或实证证据很少能支持三阶以上的交互变量。
2.2 多重共线性
当数据中存在高度相关的变量时,就会出现多重共线性的情况。根据相关性的成因,多重共线性可分为两类:
- 本质病态 :当变量之间的高度相关性源于它们之间的内在关系时,这种多重共线性被称为本质病态。例如,在当前劳动力市场中,性别与收入之间的相关性,男性收入普遍高于女性,就造成了这种“病态”。
- 非本质病态 :当高度相关性是由交互变量引起时,这种多重共线性被称为非本质病态。
多重共线性的存在会
超级会员免费看
订阅专栏 解锁全文
30

被折叠的 条评论
为什么被折叠?



