回归中的变量选择方法:易忽视的问题,显著的解决方案
1. 引言
回归中的变量选择,即从众多变量中找出要纳入模型的最佳子集,可谓是模型构建中最具挑战性的部分。市面上存在多种变量选择方法,很多统计学家对它们有所了解,但鲜有人知晓这些方法构建出的模型表现欠佳。这些有缺陷的变量选择方法是统计学的失误,因为它们是将可靠的统计理论贬低为误导性的伪理论基础而发展出来的。
本文有两个目标:一是重新审视有关变量选择方法弱点的文献范围;二是重新激活一种显著的解决方案,以定义一个性能良好的回归模型。为了策略性地实现这一目标,将分为两个方面进行阐述。首先,回顾五种常用的变量选择方法。其次,介绍与主题相关的Tukey探索性数据分析(EDA),即统计建模和分析的自然七步循环,它是回归中变量选择的显著解决方案。对于刚接触Tukey的EDA的人来说,需要在Tukey的分析哲学叙述中引入这七步循环。因此,将解决方案前后分别围绕EDA的本质和EDA学派思想展开。
2. 背景
经典统计学要求统计学家用为特定问题设计的预设程序来处理给定问题。例如,预测连续因变量(如利润)的问题,可通过普通最小二乘法(OLS)回归模型来解决,同时要检查著名的OLS基本假设。手头有几个候选预测变量,这使统计学家能够检查假设(如预测变量线性无关)。同样,数据集有适当数量的观测值,这也使统计学家能够检查假设(如误差不相关)。此外,统计学家可以进行常被忽视的探索性数据分析(EDA),例如检查并应用适当的补救措施来处理导致数据特征棘手的个别记录(如缺口、聚类和异常值)。重要的是,EDA允许统计学家评估给定变量(如X)是否需要进行变换/重新表达(如log(X)、sin(X)或1/X)。传统的变量选择方法无法进行此类变换,也不
超级会员免费看
订阅专栏 解锁全文
731

被折叠的 条评论
为什么被折叠?



