基于CHAID的统计与机器学习数据挖掘方法解析
1. 数据挖掘中的优势比
在统计和机器学习数据挖掘领域,优势比是评估预测变量对响应变量影响的传统指标。它主要衡量的是在其他预测变量“保持不变”的情况下,响应为 1 的优势。优势比的计算是对预测变量系数进行指数运算,即预测变量 $X_i$ 的优势比等于 $\exp(b_i)$,其中 $\exp$ 是指数函数,$b_i$ 是 $X_i$ 的系数。
1.1 优势比的局限性
优势比存在两个明显的弱点。其一,由于需要对预测变量的系数进行指数运算,它是一种不太直观的衡量方式,即使是数学能力较强的人在解释时也会感到有些棘手。其二,优势比提供的是对预测变量影响的静态评估,其值是固定的,不考虑其他预测变量之间的关系。
1.2 案例中的优势比分析
以一个木工工具供应商的案例来说明。供应商希望提高即将开展的目录营销活动的响应率,为此构建了一个响应模型。该模型基于最近一次目录邮寄的样本,响应率为 2.35%,包含以下变量:
- 响应变量 :RESPONSE,表示客户是否从最近的目录邮寄中进行了购买(是 = 1,否 = 0)。
- 预测变量 :
- CUST_AGE:客户年龄(岁)。
- LOG_LIFE:自客户首次购买以来的总购买金额的对数,即终身消费金额的对数。
- PRIOR_BY:虚拟变量,表示客户在最近目录邮寄前 3 个月内是否有购买行为(是 = 1,否 = 0)。
通过对 RESPONSE 进行逻辑回归分析,得到如下输出:
| Variable
超级会员免费看
订阅专栏 解锁全文
47

被折叠的 条评论
为什么被折叠?



