分类与回归树、装袋法和提升法:原理与应用
1. 引言
在分类和回归问题中,传统方法如判别分析和普通最小二乘法(OLS)回归往往依赖于正态性假设和用户指定的模型陈述。而树结构的分类和回归方法则提供了一种替代方案,它不基于这些假设,且与一些非参数方法(如基于核的方法和最近邻方法)不同,树结构的预测器可以是输入变量相对简单的函数,易于使用。
装袋法(Bagging)和提升法(Boosting)是用于改进预测规则的通用技术,它们都属于Breiman(1998)所说的扰动与组合(P&C)方法。这些方法将分类或回归方法应用于原始数据集的各种扰动,然后将结果组合以获得单个分类器或回归模型。装袋法和提升法可应用于基于树的方法,以提高预测的准确性,当然它们也可与其他方法(如神经网络)结合使用。
2. 分类与回归树
2.1 特点与应用场景
树结构的分类和回归是计算密集型的非参数方法,在过去十几年中越来越受欢迎。它们适用于具有大量案例和大量变量的数据集,并且对异常值具有很强的抵抗力。
对于那些希望快速获得相当准确结果,但可能没有时间和技能使用传统方法的分析师来说,分类与回归树是不错的选择。当需要使用更传统的方法时,如果变量很多,树也可以帮助识别重要变量和交互作用。此外,分类与回归树在数据挖掘社区中得到了广泛应用,还可用于相对简单的任务,如缺失值的插补。
2.2 发展历程
- 起源 :回归树起源于20世纪60年代,Morgan和Sonquist(1963)开发了自动交互检测(AID)。20世纪70年代,Morgan和Messenger(1
超级会员免费看
订阅专栏 解锁全文
1982

被折叠的 条评论
为什么被折叠?



