天池精准医疗大赛——个人赛后总结(二)

本文主要介绍了机器学习中的特征选择方法,包括过滤式、包裹式和嵌入式选择。过滤式方法通过相关度衡量选择特征,适用于大规模数据;包裹式方法依据学习器性能选择特征,性能通常更好但计算复杂;嵌入式方法在学习过程中自动选择特征,结合模型训练。文章还提及在实际应用中如何结合先验知识和模型性能选择特征。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一、特征选择说明


坊间常说,数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。当你的数据分布足够好,特征工程足够好,即使用很简单的模型也能得到很好的结果。由此可见特征工程在机器学习中的重要程度不言而喻。一个关键特征(goldfeature)甚至可以让你前进几百名,特征选择(featureselection)也是这次比赛中我花费时间最多的部分。



二、特征选择的方法


(1)过滤式选择(Filter过滤式方法先对数据集进行特征选择,然后再训练学习期,特征选择过程与后续学习无关,这相当于先用特征选择过程对初始特征进行”过滤“,在用过滤后的特征来选择模型。过滤式特征选择的评价标准从数据集本身的内在性质获得,与特定的学习算法无关,因此具有具有较好的通用性。过滤式特征选择的研究者认为,相关度较大的特征或者特征自己会在分类器上获得较高的准确率,dash 和 liu把过滤式特征选择的评价标准分为四种,即距离度量,信息度量,关联度量以及一致性度量。具体的原理和内容可以在论坛上都有相关的资源,也感谢各位大佬的无私分享,这里就不再一一赘述,在做特征工程的时候大家也可以都尝试一下这些方法,选用效果较好的那一种。上篇文章我提到的所采用的皮尔逊系数属于一种关联度量,是过滤式选择的一种。
优点
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值