Kdd Cup 2013 track1总结

本文是作者参与KDD Cup 2013作者论文识别挑战赛的总结,主要介绍了特征工程的几个方面,包括字符串距离计算、合作者信息、期刊会议年份、关键词匹配等,并尝试了多种分类模型的融合,但最终成绩停留在0.9788,强调了特征选择的重要性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

比赛地址:http://www.kaggle.com/c/kdd-cup-2013-author-paper-identification-challenge


大概也折腾了一个多月吧,从最开始的兴奋到后面的折腾不动,失望,最后来总结一下。

开始阶段完全小白,最好入手的办法用着basicline的代码,添加一两个新的特征,最后就折腾一下模型,这里说一下自己用的特征。

1. 字符串距离 

首先在paperauthor里面是又噪音的,同一个(authorid,paperid)可能出现多次,我做的是把同一个(authorid,paperid)对的多个name和多个affiliation合并起来。例如

aid,pid,name1,aff1 

aid,pid,name2,aff2

aid,pid,name3,aff3

得到aid,pid,name1##name2##name3,aff1##aff2##aff3,“##”为分隔符。由paperauthor里可以知道论文的name和affiliation,另一个方面我们可以根据(authorid,paperid)对中的authorid到author表里找到对应的name和affiliation,假设当前的作者论文对是(aid

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值