论文溯源树AMiner

来自 DBLP、ArXiv、STM 等多家学术出版机构和平台的数据表明,在过去 20 年间,计算机科学、物理学、统计学等研究领域的出版物总量都有大幅增加。像 CVPR、AAAI 等有关人工智能等新兴领域的顶级会议,每年的论文接受量也已经高达上千篇。面对雨后春笋一样涌现的学术出版物和千上万篇学术论文,任何一名研究者都不可能了解所有新领域,即使这一领域和自己的研究方向近似。

如果有一种工具,可以把一篇论文的源头梳理清楚,就能极大地减少无效检索的时间,快速了解一个新领域的发展脉络。

在以往的研究中,计算机领域的相关学者提出了很多数据挖掘技术,比如概念抽取、主题演变、算法图谱等。但是,这些数据挖掘技术更多是着眼于提炼学术文献中的关键术语信息,研究它们之间的关系与变化,却很少关注学术出版物本身较深层次的内容以及关联关系。

近日,AMiner 团队的硕士生殷达等人提出一种新方法——论文溯源树(https://mrt.aminer.cn/),通过刻画学术文献的发展演变脉络,来帮助科研人员了解前沿论文是如何演变而来的。相关研究论文“MRT: Tracingthe Evolution of Scientific Publications”已被 TKDE 2021 接收。

“MRT 溯源树”是一个通过构建论文演变图帮助学者研究论文发展的工具,目标是研究论文中各种思路方法的演变过程。

以知名 NLP 研究论文“BERT:Pre-training of Deep Bidirectional Transformers for Language Understanding”为例,BERT 对于预训练模型、文本向量、序列编码等方法的使用来源于语言模型这一方向上的 ELMo、Word2vec、LSTM 等工作中,而 MLM、Transformer 等内容则可以追溯到机器翻译领域中的 MaskGAN、Attention is all you need 等文章。

在这里插入图片描述
图:BERT 论文溯源(部分)
为了生成关于 BERT 的“论文溯源树”,研究团队采用了检索,阅读,构图,推理等若干步骤。
在这里插入图片描述
MRT 溯源树技术原理
首先,算法将目标论文放入诸如 SemanticScholar 或是 AMiner 这样的开放数据源中进行检索,获取其论文标题、摘要及其引用信息,再根据引用信息扩展出多层引用网络,并采用 PageRank 算法进行排序,筛选与目标论文较为相关的文献。
在这里插入图片描述
然后,算法采用 TF-IDF、Sentence-BERT 以及 ProNE 等文本编码以及图特征编码方法对检索得到的论文网络进行编码计算,为每一篇论文生成表示向量。其中,TF-IDF 可以提取论文中表层的关键词信息;Sentence-BERT 则能够捕获到论文中较深层的语义信息;ProNE 则将文本信息放在论文引用网络中,用谱传播的方式将邻居节点论文之间的关联性融入论文表示向量中,从而最终得到兼顾文本信息和引用结构信息的论文向量。
在这里插入图片描述
另外,在此基础上,算法采用了 Kernel K-means 等方法,根据生成的论文向量进行聚类排列,连接成带有多条“溯源路径”的树状结构;同时,针对每一类(每一条溯源路径)中的论文,算法还采用了自动化标注算法为其生成标签来概括描述这些论文的主题。Kernel K-means 算法中的核函数除了用来进行聚类外,还被应用于计算论文及溯源路径对于目标论文演变的重要性。

到这里,一棵论文溯源树便就出生了。
在这里插入图片描述
图|论文溯源树(Demo 地址:https://mrt.aminer.cn/5dd3de98e07b013b38cf3399)
最后,在线上用户交互过程中,为了方便用户在阅读溯源树过程中可以快速定位当前感兴趣的相关论文,算法还应用强化学习设计出在线推荐模块,根据用户的阅读点击事件动态推荐相关论文。
在这里插入图片描述
此外,研究团队还针对上述各个步骤设计了一系列相关实验进行验证。考虑到由于缺少标注数据而难以直接进行评估的问题,研究团队还采用了若干种间接的衡量方法从多个角度对提出方法的有效性进行验证评估,并与基线算法进行比较,最终验证了算法的优越性。

目前,该算法已集成在 AMiner 学术信息挖掘系统中(https://mrt.aminer.cn/)。
在 AMiner 网站上,你可以通过点击想要生成溯源树的论文右侧的按钮来提交生成申请,在排队过后系统会自动搜集相关引用论文并计算生成溯源树。

AMiner 实现学术论文的自动分类主要依赖于自然语言处理(NLP)、机器学习(ML)和知识图谱技术,结合大规模学术文本数据进行建模与分析。其核心流程包括以下几个步骤: 1. **数据预处理**: - 从论文标题、摘要、关键词、引用文献等字段中提取文本内容。 - 进行去噪、分词、去除停用词、词形还原等预处理操作,构建结构化文本表示。 2. **特征表示**: - 使用词袋模型(Bag-of-Words)、TF-IDF 等传统方法提取文本特征。 - 更进一步采用深度学习模型如 Word2Vec、BERT、SciBERT(面向科学文献优化的 BERT 变体)将文本编码为高维向量,捕捉语义信息。 3. **分类模型训练**: - 基于标注好的论文数据集(如领域标签:人工智能、数据挖掘、计算机视觉等),使用分类算法进行训练。 - 常用模型包括:支持向量机(SVM)、随机森林、以及深度神经网络(如 CNN、LSTM、Transformer)。 4. **融合知识图谱信息**: - 利用 AMiner 自建的学术知识图谱,引入学者、机构、会议期刊(e.g., CVPR, NeurIPS)等先验信息辅助分类。 - 例如:一篇发表在 ACL 上且作者研究方向为 NLP 的论文,更可能属于“自然语言处理”类别。 5. **多标签与层次化分类**: - 学术论文常涉及多个子领域,AMiner 支持多标签分类(multi-label classification)。 - 同时采用层次化分类策略,依据学科分类体系(如 ACM CCS、IEEE Taxonomy)逐层判断。 6. **持续学习与更新**: - 随着新论文不断发布,系统通过在线学习或定期重训练模型,保持对新兴研究方向(如大模型、AIGC)的敏感性。 ```python # 示例:使用预训练的 SciBERT 模型进行论文文本编码(需安装 transformers) from transformers import AutoTokenizer, AutoModel import torch # 加载 SciBERT 模型和分词器 tokenizer = AutoTokenizer.from_pretrained("allenai/scibert_scivocab_uncased") model = AutoModel.from_pretrained("allenai/scibert_scivocab_uncased") # 输入一篇论文摘要 abstract = "This paper presents a novel approach to federated learning with non-IID data." # 编码文本 inputs = tokenizer(abstract, return_tensors="pt", padding=True, truncation=True, max_length=128) with torch.no_grad(): outputs = model(**inputs) embedding = outputs.last_hidden_state.mean(dim=1) # 句向量表示 print("论文语义向量维度:", embedding.shape) # 输出: [1, 768] ```
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值