一直以来,笔者在实际工作中,对于特征变量的选取,往往是基于业务经验,根据一定的指标口径加工出一个个指标后,即投入到建模过程。而这些指标的好坏、计算口径是否恰当,较少有进行科学地分析与深入思考。与此同时,不少数据挖掘的教科书也对特征选择方法谈及甚少,笔者认为这不是个好现象,间接导致很多人看完了各种分类、聚类算法后,以为自己已经通晓数据挖掘了,但一遇到实际问题,又不知从何处下手了。今日打算学习一下该领域相关的理论及方法,记录下学习笔记,并分享之。
特征选择之所以要引起重视的原因,那就是随着科技发展,很多领域能采集到的特征变量数以万计,而能作为训练集的样本量却往往远小于特征数量(如基因测序、文本分

本文介绍了特征选择的重要性,包括过滤式、包裹式和嵌入式三种主流方法。过滤式通过特征排序独立于模型,但可能忽略特征间关系。包裹式考虑所有特征子集,计算量大。嵌入式在模型训练中选择特征,如决策树。特征构造如聚类和线性组合也是重要手段。
最低0.47元/天 解锁文章
4983

被折叠的 条评论
为什么被折叠?



