竞赛专题(四)特征工程-竞赛中的必杀技

特征工程在数据竞赛中扮演关键角色,尤其在非图像和NLP领域。通过数据预处理、特征提取和选择,结合业务理解与模型验证,能显著影响比赛成绩。专家们分享了从匿名特征处理到业务背景特征构建的各种策略,强调了特征工程与模型的紧密关系。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >


点击上方“Datawhale”,选择“星标”公众号

第一时间获取价值内容

640?

为了帮助更多竞赛选手入门进阶比赛,通过数据竞赛提升理论实践能力和团队协作能力。DataFountain 和 Datawhale 联合邀请了数据挖掘,CV,NLP领域多位竞赛大咖,将从赛题理解、数据探索、数据预处理、特征工程、模型建立与参数调优、模型融合六个方面完整解析数据竞赛知识体系,帮助竞赛选手从0到1入门和进阶竞赛。

下面是大咖分享

???

数据挖掘方向

640?wx_fmt=jpeg

杰少 ID:尘沙杰少

简介:南京大学计算机系毕业,现任趋势科技资深算法工程师。20多次获得国内外数据竞赛奖项,包括KDD2019以及NIPS18 AutoML等。


特征工程被称为是数据挖掘竞赛的艺术,要做好特征工程需要不断的练习和总结。

特征工程的构建有很多方法,但目前有两类是比较常见的,

 

第一类,可以从特征的类型出发进行特征工程的构建,典型的就是AutoML比赛;通过整形,浮点型,类别型,多值型等数据出发对特征进行构建;

 

第二类,从业务的角度出发进行特征工程的构建,传统的有业务背景的比赛大多如此,可以从赛题的业务背景出发来进行特征工程的构建。对业务了解的越深,往往也可以取得更好的结果,最典型的比赛就是kaggle的天文赛,天文系的博士通过专业的背景知识构建了很多专业的特征,拿下了kaggletop1.

 

当然上面所说的特征工程,还需要看所采用的模型,模型选用的不同对于特征工程的构建也会带来些许区别。

 

最近CCF有很多比赛,希望大家去比赛中细细体会我上面说的,加油!

640?wx_fmt=png

王贺 ID:鱼遇雨欲语与余

简介:武汉大学硕士,2019年腾讯广告算法大赛冠军选手,京东算法工程师,一年内获得两冠四亚一季的佳绩。


一般特征工程分为数据预处理、特征提取、特征选择三个部分。这里给大家推荐一个链接,包含特征工程的基本套路。

https://www.slideshare.net/HJvanVeen/feature-engineering-72376750
讲到了数据清洗的方法,对于数值特征、类别特征、时间和文本相关等特征的常见处理方法。最后讲到了三种特征选择的方法。很值得反复学习的。

640?wx_fmt=png

双击查看大图

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值