DBLP学者合作关系数据集的制作

最新推荐文章于 2025-06-20 16:19:12 发布

原创

最新推荐文章于 2025-06-20 16:19:12 发布 · 2.7k 阅读

21 ·

CC 4.0 BY-SA版权

本文介绍如何使用Python解析DBLP的XML数据，提取作者信息和合作网络，构建包含237万作者和900万合作边的图结构。

DBLP是一个计算机领域的文献数据库，网站上的所有文献数据保存在一个xml文件中，下载地址https://dblp.org/xml/。这个文件每几天会更新一次，我下载的是2019.10.30日更新的版本，解压后是一个2.53g的xml文件。使用python对这个文件解析，得到一个描述学者合作关系的图结构。

1.dblp.xml的标签

一篇文献的标签结构如下图所示
在这里插入图片描述
article是文献的类型，代表期刊文献。DBLP将文献分为8中类型。

article：期刊
proceeding：论文集
inproceeding：论文集中的一篇（应该指的是会议论文）
book：出版的书籍
incollection：书籍中的一章
www：网页
phdthesis：博士学位论文
masterthesis：硕士学位论文

这里我们只关注article和inproceeding

一篇文献下的标签代表这篇文献的相关信息。author标签指的是作者姓名，其他的相关信息比如发表时间、出版社、题目都有不同的标签表示。

除论文外，这个xml中还有其它的信息，比如作者、会议。具体内容和标签格式可参考文献 Michael Ley, “DBLP — Some Lessons Learned”

2.xml的解析

用python自带的sax库对xml文件解析，使用方法可看python 菜鸟教程的介绍。我对文件解析两次，第一次提取全部的作者并为每个作者分配一个id，这也就是图的顶点。将 id-作者姓名对应关系输出到一个文本文件中。

第二次解析建立图中的边。若id为 x 的作者和id为 y 的作者合作过文章，则图中应有边（x,y）。要注意三种情况：

边（x,x）不应该出现
（x,y）和（y,x）只记录一次、
x 与 y 有过多次合作，（x,y）只记录一次

最终将所有的边输出到一个文本文件中，每个数对 x y 占一行

完整代码如下：

#use xml.sax parse dblp.xml. Give each author an ID and put them in a file.
#find collaboration relations of all authors and output them to a file. One relation's format is like (id1,id2)

import xml.sax
class authorHandler(xml.sax.ContentHandler):   #extract all authors
	def __init__(self):
		self.CurrentData=""     #tag's name
		self.dict={
   
   }   #save all authors. The key is an author's name, the value is his id
		self.name=""   #the name of an author
		self.id=0      #the ID of an author
	def startElement(self, tag, attributes):   
		self.CurrentData = tag
		self

最低0.47元/天解锁文章

8 条评论

m0_49924344 2022.04.20
两百多万个作者真的只要几分钟就能运行结束吗

S201861123 2021.03.12
请问作者，这个DBLP中article作者是有标签的吗？
- arccosY回复S201861123 2021.03.19
  有些重名作者已经做了区分，会在名字后面加上编号。详见https://dblp.uni-trier.de/faq/1474704.html
- S201861123回复arccosY 2021.03.19
  您好，我还想问您一下，我做重名作者的区分，这个数据集是不是做不了验证集？谢谢
- arccosY回复S201861123 2021.03.15
  没有，只有名字

wisemanchen 2020.10.15
请问作者名字那里会把特殊符号相关部分跳过怎么回事？例如Günther Heinemann处理后author.txt中记录为nther Heinemann
- wisemanchen回复arccosY 2020.10.20
  sax里面有resolveentity，可以看我新发的帖子
- arccosY回复wisemanchen 2020.10.20
  因为"&xxx;"这样的字符串会被当做xml的转义字符。需要先把dblp.xml中的"&"符号替换为其转义字符"$amp;"。代码也有修改