
挖掘DBLP作者合作关系,FP-Growth算法实践
文章平均质量分 78
mmc2015
北大信科学院,关注深度强化学习。http://net.pku.edu.cn/~maohangyu/
展开
-
挖掘DBLP作者合作关系,FP-Growth算法实践(6):简单的总结报告
基于FP-Growth的频繁项集挖掘与基于社交图的关联规则挖掘一、任务简介 1二、数据集 1三、基本思路 23.1、发掘各个会议的“核心”研究者 23.2、挖掘作者之间的合作关系 33.3、挖掘导师-学生关系 5四、正确性验证 5五、总结 5 一、任务简介本次挖掘任务有三个:第一,发掘各个会议的“核心”研究者,具体包括在相应会议上的发表文章数量、活原创 2016-04-02 13:23:09 · 2310 阅读 · 0 评论 -
挖掘DBLP作者合作关系,FP-Growth算法实践(5):挖掘研究者合作关系
就是频繁项集挖掘,FP-Growth算法。先产生headerTable:数据结构(其实也是调了好几次代码才确定的,因为一开始总有想不到的东西):entry: entry: {authorName: frequence, firstChildPointer, startYear, endYear}def CreateHeaderTable(tranDB, minSupport=1原创 2016-03-30 21:22:44 · 1733 阅读 · 3 评论 -
挖掘DBLP作者合作关系,FP-Growth算法实践(4):挖掘每个会议的核心研究者
在只有【论文标题、发布时间、作者、会议名称】这四种信息的情况下,首先提取出所有这四种信息:代码产生的结果如下,数据结构类似于headerTable,看结果就知道了,不再介绍:authorDict={} #{authorName: total(frequence, startYear, endYear), {eachConf(frequence, startYear, endYear)}}原创 2016-03-30 21:05:29 · 1665 阅读 · 0 评论 -
挖掘DBLP作者合作关系,FP-Growth算法实践(3):挖掘任务、思路简介
首先是挖掘任务:思路明天写。。。。。原创 2016-03-28 23:25:32 · 1152 阅读 · 0 评论 -
挖掘DBLP作者合作关系,FP-Growth算法实践(2):从DBLP数据集中提取信息,三种源码(dom,sax,string)
上篇文章:http://blog.youkuaiyun.com/mmc2015/article/details/50988375 (挖掘DBLP作者合作关系,FP-Growth算法实践(1):从DBLP数据集中提取目标信息(会议、作者等))大家反映代码不能用,主要是太慢了,好吧,我也承认慢,在内存构造树,肯定的!这次给出另外两种。为了完整,先给出dom:#do not use原创 2016-03-28 23:21:35 · 1957 阅读 · 3 评论 -
挖掘DBLP作者合作关系,FP-Growth算法实践(1):从DBLP数据集中提取目标信息(会议、作者等)
首先从官网下载DBLP数据集http://dblp.uni-trier.de/xml/只需下载 dblp.xml.gz 解压后得到1G多dblp.xml文件!文件略大。从原始数据中提取样本:r=open("dblp.xml","r")w=open("dblpExample.xml","w")for i in range(30): print原创 2016-03-26 20:05:19 · 5295 阅读 · 2 评论