预测贡献系数:预测重要性的衡量指标
1. 引言
在回归模型中,确定最重要的预测变量是解释模型的关键要素。通常,我们会将标准化系数(SRC)最大的预测变量视为最重要的变量,次大的视为次重要的变量,依此类推。这个规则直观且易于应用,能为理解模型的工作原理提供实用信息。然而,很多人不知道的是,这个规则在理论上存在问题。本文有两个目的:一是探讨为什么这个决策规则在理论上有缺陷,但在实践中却效果良好;二是介绍一种替代指标——预测贡献系数(PCC),它比标准化系数能提供更多有用信息,因为它是基于数据挖掘范式的无假设指标。
2. 背景
2.1 线性回归模型
设 $Y$ 为连续因变量,$X_1, X_2, \ldots, X_i, \ldots, X_n$ 为预测变量。线性回归模型定义如下:
[Y = b_0 + b_1X_1 + b_2X_2 + \ldots + b_iX_i + \ldots + b_nX_n]
其中,$b$ 是原始回归系数,通过普通最小二乘法进行估计。系数估计完成后,将个体的预测变量值代入方程,即可计算出该个体的预测 $Y$ 值。
原始回归系数的解释引出了一个问题:$X_i$ 如何影响 $Y$ 的预测?答案是,当其他 $X$ 保持不变时,$X_i$ 每增加一个单位,预测 $Y$ 平均变化 $b_i$。常见的误解是,认为原始回归系数绝对值最大的预测变量对预测 $Y$ 的影响最大。但除非预测变量的测量单位相同,否则原始回归系数的值可能差异很大,无法直接比较。因此,需要对原始回归系数进行标准化,以统一预测变量的不同测量单位,实现公平比较。
对于二元因变量的情况,线性回归模型变为逻辑回归模型,
超级会员免费看
订阅专栏 解锁全文
1268

被折叠的 条评论
为什么被折叠?



