本次实验以AAAI 2014会议论文数据为基础,要求实现或调用无监督聚类算法,了解聚类方法。
任务介绍
每年国际上召开的大大小小学术会议不计其数,发表了非常多的论文。在计算机领域的一些大型学术会议上,一次就可以发表涉及各个方向的几百篇论文。按论文的主题、内容进行聚类,有助于人们高效地查找和获得所需要的论文。本案例数据来源于AAAI 2014上发表的约400篇文章,由UCI公开提供,提供包括标题、作者、关键词、摘要在内的信息,希望大家能根据这些信息,合理地构造特征向量来表示这些论文,并设计实现或调用聚类算法对论文进行聚类。最后也可以对聚类结果进行观察,看每一类都是什么样的论文,是否有一些主题。
基本要求:
-
将文本转化为向量,实现或调用无监督聚类算法,对论文聚类,例如10类(可使用已有工具包例如sklearn);
-
观察每一类中的论文,调整算法使结果较为合理;
-
无监督聚类没有标签,效果较难评价,因此没有硬性指标,跑通即可,主要让大家了解和感受聚类算法,比较简单。
扩展要求:
-
对文本向量进行降维,并将聚类结果可视化成散点图。
注:group和topic也不能完全算是标签,因为
-
有些文章作者投稿时可能会选择某个group/topic但实际和另外group/topic也相关甚至更相关;
-
一篇文章可能有多个group和topic,作为标签会出现有的文章同属多个类别,这里暂不考虑这样的聚类;
-
group和topic的取值很多,但聚类常常希望指定聚合成出例如5/10/20类;
-
感兴趣但同学可以思考利用group和top