weka dblp数据集挖掘)
任务描述:DBLP数据集作者关系挖掘
DBLP数据集是一个XML格式文件,这里可以下载压缩数据集
18年11月数据包大小约为2g,txt打不开这么大的文件,想看的话可以用UltraEdit打开。
可以看到每个以article 开头,以article结尾,weka中是不能直接导入XML格式的,所以要将XML格式先转换为CSV格式,具体可以参考Python解析DBLP的xml文件
挖掘作者关系可以只保留作者信息,weka对csv格式文件的读取要求每行数据量是一样的,否则会报错。所以在这里将作者信息全部解析出来之后用excel去处理。
每篇文章作者数量可能不一样,我这里每篇文章只保留四个作者。把第第五列以后的所有数据格子都删掉,再保存为CSV格式,这样EXCEL会自动帮你生成一个非常规整的weka能读出来的数据,在txt中打开看是这样的
也就是说,每行多余四个作者的会帮你删掉,少于四个作者会帮你补“,”号,这样weka就可以正确读进去了
打开weka-explorer-openfile,把你的文件打开