比赛地址:http://www.kaggle.com/c/kdd-cup-2013-author-paper-identification-challenge
大概也折腾了一个多月吧,从最开始的兴奋到后面的折腾不动,失望,最后来总结一下。
开始阶段完全小白,最好入手的办法用着basicline的代码,添加一两个新的特征,最后就折腾一下模型,这里说一下自己用的特征。
1. 字符串距离
首先在paperauthor里面是又噪音的,同一个(authorid,paperid)可能出现多次,我做的是把同一个(authorid,paperid)对的多个name和多个affiliation合并起来。例如
aid,pid,name1,aff1
aid,pid,name2,aff2
aid,pid,name3,aff3
得到aid,pid,name1##name2##name3,aff1##aff2##aff3,“##”为分隔符。由paperauthor里可以知道论文的name和affiliation,另一个方面我们可以根据(authorid,paperid)对中的authorid到author表里找到对应的name和affiliation,假设当前的作者论文对是(aid