数据预处理
主要包括数据的搜集以及预处理等。
lw03060402
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
数据预处理——补充数据集
补充数据集补充数据集 补充数据集 即找到每篇论文相对应的year、venue、quote数据,以相同的格式(每行对应一篇论文)保存到txt文件中。 前两天尝试了从OAG官网下载数据,然后从本地数据集中查找对应的论文,但是发现OAG提供的论文数据量太大,针对每一篇论文去查找速度有些慢。 所以转变思路,使用论文检索工具,搜索每一篇论文的题目,然后网址上就会展示论文的各种信息。这里使用的是google scholar国内镜像版,论文信息如下图: 首先我们先新建一个test.txt,里面包含30篇论文的原创 2020-07-01 12:54:09 · 1014 阅读 · 0 评论 -
数据预处理——数据集分析
关于数据集 最初的ACM论文数据集中,包含的数据有论文的ID、标题、摘要、关键字、引用关系、CCS分类,以及论文摘要中句子级别的子空间标记(研究背景、研究问题、贡献、方法、实验)。但是没有论文的year,venue属性,即论文发表的年份和发表的期刊或会议信息,所以需要再去爬取或者直接搜集数据。 第一个想法是直接搜集论文数据集,然后找到两个数据集之间的论文匹配关系。我们选择添加链接描述作为数据来源。该数据集包含了 Microsoft Academic Graph (MAG) 的 1.66192182 亿篇论文原创 2020-07-01 12:48:43 · 6314 阅读 · 0 评论
分享