基于CHAID的逻辑回归模型解释方法
1. 引言
逻辑回归模型是构建响应模型的标准技术,其理论成熟,各大统计软件包也提供了估算算法。然而,目前对逻辑回归响应模型的解释却鲜有关注。本文旨在介绍一种基于CHAID(卡方自动交互检测)的数据挖掘方法,用于解释逻辑回归模型,特别是全面评估预测变量对响应的影响。
2. 逻辑回归模型
设Y为二元响应(因变量),取值为是/否(通常分别编码为1/0),X1, X2, X3, …, Xn为预测(自变量)变量。逻辑回归模型通过以下公式估计Y的对数几率(logit):
Logit Y = b0 + b1 X1 + b2 X2 + … + bn*Xn (11.1)
个体回答“是”的概率通过以下公式计算:
Prob(Y = 1) = exp(Logit Y) / (1 + exp(Logit Y)) (11.2)
其中,b为逻辑回归系数,b0称为截距,不与任何预测变量相乘。
优势比(odds ratio)是评估预测变量对响应变量影响的传统指标,通过对预测变量的系数取指数得到。例如,Xi的优势比等于exp(bi)。但优势比存在两个弱点:一是单位不直观,除数学专业人士外,其他人难以理解;二是它提供的是预测变量影响的“静态”评估,不考虑其他预测变量之间的关系。
3. 数据库营销响应模型案例研究
一位木工工具供应商希望提高即将到来的目录营销活动的响应率,需要一个模型来生成最有可能响应的客户列表。响应模型基于最近一次目录邮寄的样本构建,响应率为2.35%。模型的变量定义如下:
- 响应变量:RESPONSE,表示客户是否购买(是
超级会员免费看
订阅专栏 解锁全文
57

被折叠的 条评论
为什么被折叠?



