DBLP实验数据集处理

最新推荐文章于 2022-06-06 20:20:25 发布

原创

最新推荐文章于 2022-06-06 20:20:25 发布 · 7.8k 阅读

10 ·

CC 4.0 BY-SA版权

文章标签：

#DBLP数据集 #实验数据集 #社区发现

DBLP是一个专注于计算机领域的文献数据库，提供XML格式的数据，常用于学术研究，如社区发现、作者分析等。本文介绍了如何解析XML数据并将其存储到MySQL数据库，包括数据表结构、解析代码及后续处理步骤。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

DBLP介绍

DBLP是计算机领域的英文文献数据库，收录了国际期刊和会议等公开发表的论文。DBLP没有提供对中文文献的收录和检索功能，国内类似的权威期刊及重要会议论文集成检索系统有C-DBLP。DBLP是德国特里尔大学的Michael Ley负责开发和维护。它提供计算机领域科学文献的搜索服务，但只储存这些文献的相关元数据，如标题，作者，发表日期等，并使用XML存储元数据。

DBLP数据广泛用于学术研究，如作者主题分析、社区发现、关系推荐、链接预测、作者影响力分析、学术热点研究等。在学术界声誉很高，很多论文及实验都是基于DBLP的。而且更新也很快，每个月初更新一次XML文件，截止至2016.04.12，共收录了330万+的论文、170万+的学者。

XML数据格式

<inproceedings mdate="2012-09-18" key="persons/Codd74">
    <author>E. F. Codd</author>
    <title>Seven Steps to Rendezvous with the Casual User.</title>
    <year>1974</year>
    <booktitle>IFIP Working Conference Data Base Management</booktitle>
    <url>db/conf/ds/dbm74.html#Codd74</url>
    <note>IBM Research Report RJ 1333, San Jose, California</note>
</inproceedings>
<article mdate="2002-01-03" key="persons/Codd69">
    <author>E. F. Codd</author>
    <title>Derivability, Redundancy and Consistency of Relations Stored in Large Data Banks.</title>
    <journal>IBM Research Report, San Jose, California</journal>
    <year>1969</year>
    <ee>db/labs/ibm/RJ599.html</ee>
</article>

XML的头文件编码方式是 ISO-8859-1 (“Latin-1”) ，但是文件中的内容的都是ASCII字符，其中拉丁字符被转换成对应的实体，如é表示为& eacute; 。包含类型：article、inproceedings、proceedings、book、incollection、phdthesis、mastersthesis、www。
XML具体介绍可参考【官文的PDF】【DBLP XML数据下载地址】
本文介绍将XML解析出来，然后保存到mysql数据库。

mysql存储数据的表结构：