weka dblp数据集挖掘

本文介绍了如何使用Weka工具对DBLP数据集进行挖掘,首先将XML格式转换为CSV,然后处理数据使其符合Weka的读取要求。通过删除无关字段并应用Apriori关联算法,设定合适的参数以挖掘作者之间的合作模式,揭示合著超过一定次数的作者关系。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

weka dblp数据集挖掘)

任务描述:DBLP数据集作者关系挖掘
DBLP数据集是一个XML格式文件,这里可以下载压缩数据集
18年11月数据包大小约为2g,txt打不开这么大的文件,想看的话可以用UltraEdit打开。
在这里插入图片描述
可以看到每个以article 开头,以article结尾,weka中是不能直接导入XML格式的,所以要将XML格式先转换为CSV格式,具体可以参考Python解析DBLP的xml文件
挖掘作者关系可以只保留作者信息,weka对csv格式文件的读取要求每行数据量是一样的,否则会报错。所以在这里将作者信息全部解析出来之后用excel去处理。
在这里插入图片描述
每篇文章作者数量可能不一样,我这里每篇文章只保留四个作者。把第第五列以后的所有数据格子都删掉,再保存为CSV格式,这样EXCEL会自动帮你生成一个非常规整的weka能读出来的数据,在txt中打开看是这样的
在这里插入图片描述
也就是说,每行多余四个作者的会帮你删掉,少于四个作者会帮你补“,”号,这样weka就可以正确读进去了
打开weka-explorer-openfile,把你的文件打开

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值