论文图谱当如是:Awesome-Graphs用200篇图系统论文打个样

作者:范志东

试想在你刚接触一个陌生的技术领域时,如果有办法以“上帝视角”看到该领域完整的历史发展轨迹,是否可以让自己的技术探索更有的放矢,胸有成竹呢?是的,你没猜错,这个玩意儿叫论文图谱。

我通过“人肉扫描”了200多篇图计算系统的论文,整理了心中理想的“图系统论文图谱”原型,大家可以“类比想象”一下当下关注技术领域的论文图谱应当如何。当然我们很清楚人肉不是终极解,所以我们需要探索如何通过技术手段实现论文图谱的自动化构建。

NOTE:秉承开源宗旨,文中整理的图系统论文图谱(包含图谱数据、论文pdf文件、可视化交互)已全部托管到GitHub仓库Awesome-Graphs,可以直接下载、体验,欢迎Star、捉虫、维护、共建。

代码地址https://github.com/TuGraph-family/Awesome-Graphs

1. 动机

“熟悉新编程语言最好的办法是模仿编码,熟悉新技术领域最好的办法是通读文献。” —— 不知名开发者

在我最初着手图计算系统的研发工作时,阅读经典的图计算系统论文是必不可少的过程。当时心中一直存在着一个愿望:“要是有整理好的图系统论文的演进轨迹图,我只需沿着主干有重点地阅读就好了。。。”。

显然,理想很丰满,现实很骨感。当时也就从Google学术上逐个捞论文自己慢慢勾勒引用关系,并没有特别好用的工具可以帮助到自己。当然,现在已经有了一些比较不错的检索和分析工具,比如Connected PapersSemantic Scholar,甚至通过大模型赋能的论文阅读工具,如txyz沉浸式翻译插件等。

例如Connected Papers确实做了不错的尝试,但是免费版每个月只能渲染5张图谱,而且并不能清晰地表达论文的引用(Reference)和被引用(Citation)关系,且图探索深度(2跳以内)有明显限制。

Gemini论文的Connected Papers视图

2. 动作

求人不如求己,既然没有成熟工具达到目的,那不如先手动撸一个出来。具体思路如下:

  1. 论文检索:通过常规的手段锚定初始论文集合,手段不限于Survey、奠基论文、公开搜索等。
  2. 引用分析:正向引用分析直接下载论文看Reference,找不到论文下载源/反向引用分析时,就需要借助Google学术、Semantic Scholar、ACM Digital LibrarySpringer LinkResearch Gate等工具了。
  3. 主题筛选:根据论文标题、摘要、结论等信息确定论文主题,剔除与预期主题无关的论文。
  4. 构建图谱:保留筛选后符合预期主题的论文,记录引用关系并构图。

基于这个思路不断地迭代扩散,最终会收敛到一张完整的领域图谱。当然,这个过程其实并不轻松。。。我使用图计算系统的论文图谱的构建流程举例说明。

<

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值