点击上方“Datawhale”,选择“星标”公众号
第一时间获取价值内容
为了帮助更多竞赛选手入门进阶比赛,通过数据竞赛提升理论实践能力和团队协作能力。DataFountain 和 Datawhale 联合邀请了数据挖掘,CV,NLP领域多位竞赛大咖,将从赛题理解、数据探索、数据预处理、特征工程、模型建立与参数调优、模型融合六个方面完整解析数据竞赛知识体系,帮助竞赛选手从0到1入门和进阶竞赛。
下面是大咖分享
???
杰少 ID:尘沙杰少
简介:南京大学计算机系毕业,现任趋势科技资深算法工程师。20多次获得国内外数据竞赛奖项,包括KDD2019以及NIPS18 AutoML等。
特征工程被称为是数据挖掘竞赛的艺术,要做好特征工程需要不断的练习和总结。
特征工程的构建有很多方法,但目前有两类是比较常见的,
第一类,可以从特征的类型出发进行特征工程的构建,典型的就是AutoML比赛;通过整形,浮点型,类别型,多值型等数据出发对特征进行构建;
第二类,从业务的角度出发进行特征工程的构建,传统的有业务背景的比赛大多如此,可以从赛题的业务背景出发来进行特征工程的构建。对业务了解的越深,往往也可以取得更好的结果,最典型的比赛就是kaggle的天文赛,天文系的博士通过专业的背景知识构建了很多专业的特征,拿下了kaggletop1.
当然上面所说的特征工程,还需要看所采用的模型,模型选用的不同对于特征工程的构建也会带来些许区别。
最近CCF有很多比赛,希望大家去比赛中细细体会我上面说的,加油!
王贺 ID:鱼遇雨欲语与余
简介:武汉大学硕士,2019年腾讯广告算法大赛冠军选手,京东算法工程师,一年内获得两冠四亚一季的佳绩。
一般特征工程分为数据预处理、特征提取、特征选择三个部分。这里给大家推荐一个链接,包含特征工程的基本套路。
https://www.slideshare.net/HJvanVeen/feature-engineering-72376750讲到了数据清洗的方法,对于数值特征、类别特征、时间和文本相关等特征的常见处理方法。最后讲到了三种特征选择的方法。很值得反复学习的。
双击查看大图