AAAI2025|强烈要求开源!只根据题目和摘要就能预测论文影响力?!

点击上方“小白学视觉”,选择加"星标"或“置顶

重磅干货,第一时间送达

作者丨Ocean@知乎(已授权)

来源丨https://zhuanlan.zhihu.com/p/9630622286

编辑丨极市平台

极市导读

 

本文提出了一个利用大型语言模型(LLM)根据文章的标题和摘要来预测其未来学术影响力的新方法,该方法可以帮助自动科研系统以及个人研究者从海量新发表论文中筛选潜在高质量论文。

题目:《From Words to Worth: Newborn Article Impact Prediction with LLM》

作者:赵鹏海, 邢清画, 窦楷然, 田晋宇, 邰颖, 杨健, 程明明, 李翔*

机构:南开大学VCIP实验室、南京大学

  • 数据集代码主页地址

https://sway.cloud.microsoft/KOH09sPR21Ubojbc

  • arXiv原文

https://arxiv.org/abs/2408.03934

  • HuggingFace在线Demo (免费)

https://huggingface.co/spaces/ssocean/Newborn_Article_Impact_Predict

TLDR;我们发现微调LLM并引导它来根据题目和摘要预测一个0-1之间的文献计量学指标是很有应用前景的。实验结果表明,微调后的LLM可以准确发现潜在高影响力的论文(NDCG@20>0.9)。我们的方法可以帮助自动科研系统以及个人研究者从海量新发表论文中筛选潜在高质量论文。

大家可能对“文章影响力预测”任务比较陌生,但是想必各位对“学术成果评定”都再熟悉不过了。学术成果评定主要依赖的是一篇文章历史的统计数据,从影响力、潜在的社会或经济贡献等方面评定一篇学术论文的价值。与成果评定评估已经存在的事实相反,论文影响力预测专注于预测一篇论文未来的学术影响力

46186408e2392f4c857eabe181ebf89b.jpeg
图1 早先方法范式一览:长期以来,论文影响力预测的主流方案就是把引用特征、发表期刊会议等级、作者机构声誉、文章关键字等信息送入诸如SVM、RNN等各样的算法模型中,试图预测这这篇文章未来的引用情况。

自论文影响力预测任务诞生的那一刻起,它就成为了大型学术机构的“专利”。这些大型机构可能会用它来进行调拨科研经费、资助人才等等我们想象不到的事。在以前,这件事确实和普通科研人不能说唇齿相依,只能说毫不相干!但随着科研论文发文量的爆炸式增长以及各种新兴的LLM+应用的诞生(如AI4S、自动综述系统、自动科研系统等等),能够用于鉴别重要文献的影响力预测任务变得愈发重要。

这就像以前视频直播是电视台的专利,但随着移动互联网和短视频平台进入千家万户,现在想当主播的普通人也要开始学习布置机位、搭建绿布、调节补光等专业技能。

1d09463498d116e6a7c0f3b1860b5634.jpeg
图2 “巧妇难为无米之炊”,普通研究者和AI系统都需要在海量的文献中,找到最有价值的相关文献。

既然文章影响力预测任务变得愈发重要,以往的方法能否派上用场呢?很遗憾,不太行。

fa5f9b70f1742aa6eef563bc197f75b6.jpeg
图3 早先方法的应用范围受到限制

图1谈到了以往的大多数方法高度依赖文章的外部历史信息,但这些信息其实对个人研究者甚至是机构来说,都是很难获取的(比如如何准确获取一篇文章第一个月被引的次数?如何拿到双盲论文的作者信息和发文机构? 这是能说的么)。另外,有些信息会导致预测任务存在信息泄露的风险。比如,期刊影响因子其实就是一本期刊的平均引用次数。拿期刊影响因子作为输入,去预测一篇被该期刊收录的某篇文章未来的引用次数存在一定的信息泄露可能。更别提有些工作想要预测未来三年的引用情况,要先拿到过往十年的引用数据。过度依赖外部信息导致了以往方法大多只能预测已经发表了一段时间、甚至是已经被收录的文章影响力,而对那些刚刚新发表的论文影响力预测几乎是束手无策。

除了高度依赖外部信息及只能预测已发表论文,这些预测目标本身也存在争议。大家知道,引用次数随领域波动是很大的。就拿图4为例,AI领域顶刊TPAMI的影响因子26.7,不到Nature的1/2,医学顶刊CA的10/1。大领域是如此,小领域也存在类似的现象:专注于通用目标检测的论文,势必会比深耕甲骨文OCR的收获更多的注意(引用次数)。这就导致对领域贡献相同的论文(粗浅的认为质量完全一样的论文),可能就因为领域的不同,引用次数有数倍甚至数十倍的差异。这样巨大的差异导致算法模型在学习过程中也会产生较大的困惑,在多领域联合训练时梯度波动较大(因此,也有方法一个小领域训一个模型,最后在推理时根据领域选择对应的模型)。

3f3ca0b4eff74cc615c4e431118ea702.jpeg
图4 不同领域期刊的影响因子(影响因子 = 总收获引用次数/总发文量 = 平均引用次数)

那既然引用次数用不成了,有没有什么能支持跨领域对比的指标呢,而且最好还带有神经网络最喜欢的数值归一化性质的?这样就能解决引用次数随领域波动导致训练不稳定的问题了。还真有,那就是带有超越指数性质的TNCSI!好的,我不装了,这是我们之前的一个工作,但当时该指标是用来评价文献综述的累积影响力的。简单来说,它是由LLM确定的“同领域”内1000篇论文引用分布拟合出的概率密度函数的积分所得出的(跨领域对比的问题解决了!)。如图5所示,TNCSI就是蓝色曲线下方指定区间上的面积。由于是概率密度函数的积分,TNCSI的取值范围天然位于0-1之间(神经网络最喜欢的数值归一化也来了!)。

7eb46e55316df1e334540c35dedd8ba0.jpeg
图5 TNCSI计算方式

既然跨领域和归一化的问题都解决了,我们用TNCSI来进行预测如何?我们要先分析下TNCSI的优缺点。首先,TNCSI是一个高度可解释的、数值归一化的指标,它是一篇论文的引用次数超过同领域其它论文的概率。另外,与引用次数相同,TNCSI是一个可以评价单篇文章的指标(莱顿宣言明确指出,不应使用期刊级别的评价指标例如影响因子来评价单篇文章)。这些性质对回归任务来说真的是非常诱人!但是,由于TNCSI服务对象不同(我们那篇是针对综述设计的),它不能直接判断普通文章的研究领域。此外,TNCSI在设计之处旨在对齐引用次数,着重考虑的是累积影响力。但对文章影响力预测任务来说,使用累计影响力会导致较早发表文献由于时间优势积累更大的影响力,对新发表论文造成“倚老卖老”的不利局面。

cf111a5cca9fc8e2d19ae303dcfc3b20.jpeg
图6 TNCSI优缺点分析

遇山开路,遇水架桥!我们先咔咔改了早先提取综述研究领域的prompt,使其现在可以判断普通论文的领域关键字(从而检索相关的1000篇文章)。随后,作者团队又去时间管理局里转了一圈,让Loki把TNCSI踢出神圣时间线,赋予其抵御时间的能力(❌)。随后,我们将TNCSI统计全时间段论文的引用次数分布改为了仅统计该论文发表前后半年共计一年内论文的引用分布情况,从而赋予其抵御时间的能力(✔️)。

8fa65b3e9a98622ff2de399c548fbc04.jpeg
图7 TNCSI的进化

好,GT的计算方式已经非常明确(如图8所示)。事不宜迟,我们哐哐造了12000+条数据,每一条数据大概是这样-->(题目,摘要,TNCSI_SP)。这12000条数据来自所arXiv的cs.AI cs.CL cs.CV三大领域,横跨2020、2021、2022三年,整体数据分布是均匀的(每一个区间上的样本量基本相同)。

4bbc8b5a53d34e3c775f23b194dc3ec1.jpeg
图8 指标计算过程

有了数据集,现在终于到正头戏了——使用LLM来预测文章影响力!! 长话短说,我们魔改了下LLM的工作方式(如图9所示),把原本逐token逐token生成的范式改为了只生成第一个token,随后把这个token送入MLP并将输出的logits进行sigmoid归一化(闭环了闭环了!)。我们发现LLaMA-3的效果最好,在一个预测0-1之间的数值回归任务中,MAE仅为0.216,NDCG更是干到了0.901!(NDCG\in[0,1] 越接近1表明发现高影响力论文的能力越强)。与早先方法的对比(图10)表明我们的方法在仅依靠题目和摘要的情况下,还能有着遥(cou)遥(huo)领(neng)先(yong)的性能表现!

735cc11a5186ca552bec6e36abb1844a.jpeg
图9 推理范式
24ad229f058a5808196ae3676eab3925.jpeg
图10 与早先方法的对比

我们还设计了一个有趣的小实验,即分别使用不同年份的数据进行训练。如图11所示,我们发现在使用TNCSI作为回归指标时,不同年份之间的MAE方差很大,导致最终预测效果较差。而使用TNCSI_SP作为预测指标时,不同年份之间的MAE波动很小,整体预测性能也更好。

1ac2bb74fd490f675e85b07b783dcfbf.jpeg
图11 TNCSI_SP有效!

最后,为了验证我们方法在真实应用中的有效性,我们找了500+篇2024.1.1后年新发表的且已被不同JCR分区期刊收录的文章(这些文章极大概率不在LLaMA-3的预训练语料中,不存在信息泄露风险),并使用所提出的方法预测其影响力。实验结果表明,等级更高的分区,往往有着更高的Top5% & Top25%预测影响力,符合常识认知。

b090dfef5e0f3eba06ff09db6c97336d.jpeg
图12

最后我们还是想说一下,不要试图通过虚假声称性能(比如没有达到SOTA但是声称SOTA)等方式来试图提高指标预测分数,让我们共同维护一个良好的学术环境!

不过呢,我们也确实清楚,预测指标肯定会被用来作为indicator,来引导题目和摘要的撰写。对于这种情况,我们的建议是:(1)不要被指标牵着鼻子走,不建议为了“刷分”,把原版题目、摘要改的面目全非。(2)理想区间是在0.60-0.85之间(3)尽量不要优化题目,只针对摘要进行优化。摘要优化时,只进行语义上的优化(换词、优化表达等);(4)当摘要优化到第一次分数下降时,就停止“分数导向的优化”(意思就是不要再看分来优化了)。如果分数不管怎么优化都不高于0.60,或许你应当完全重写摘要(纯理论分析型论文除外!)。

0fae91d7c9d9cd6ebde8f53d5965739d.jpeg
图13 FBI, Open UP!

最后,插播一个推广,如果大家有追踪每日最新arXiv文章的需求(目前仅限CV领域),不妨关注我们的arXiv每日推广项目(B站、微信公众号、小红书同名):

"减论"系统目前就使用了这样的技术,它可以每天从上百篇最新arXiv论文中层层筛选,并利用Agent、RAG、OCR等多种技术,为您呈现当天的甄选文献,助力您保持学术长青!

929cad3b8ae65d9d74e2cd35d815c2dd.jpeg
图14 减论卡片示意图(早期版本)
下载1:OpenCV-Contrib扩展模块中文版教程

在「小白学视觉」公众号后台回复:扩展模块中文教程,即可下载全网第一份OpenCV扩展模块教程中文版,涵盖扩展模块安装、SFM算法、立体视觉、目标跟踪、生物视觉、超分辨率处理等二十多章内容。


下载2:Python视觉实战项目52讲
在「小白学视觉」公众号后台回复:Python视觉实战项目,即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目,助力快速学校计算机视觉。


下载3:OpenCV实战项目20讲
在「小白学视觉」公众号后台回复:OpenCV实战项目20讲,即可下载含有20个基于OpenCV实现20个实战项目,实现OpenCV学习进阶。


交流群

欢迎加入公众号读者群一起和同行交流,目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群(以后会逐渐细分),请扫描下面微信号加群,备注:”昵称+学校/公司+研究方向“,例如:”张三 + 上海交大 + 视觉SLAM“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告,否则会请出群,谢谢理解~
内容概要:本文介绍了一个基于冠豪猪优化算法(CPO)的无人机三维路径规划项目,利用Python实现了在复杂三维环境中为无人机规划安全、高效、低能耗飞行路径的完整解决方案。项目涵盖空间环境建模、无人机动力学约束、路径编码、多目标代价函数设计以及CPO算法的核心实现。通过体素网格建模、动态障碍物处理、路径平滑技术多约束融合机制,系统能够在高维、密集障碍环境下快速搜索出满足飞行可行性、安全性与能效最优的路径,并支持在线重规划以适应动态环境变化。文中还提供了关键模块的代码示例,包括环境建模、路径评估CPO优化流程。; 适合人群:具备一定Python编程基础优化算法基础知识,从事无人机、智能机器人、路径规划或智能优化算法研究的相关科研人员与工程技术人员,尤其适合研究生及有一定工作经验的研发工程师。; 使用场景及目标:①应用于复杂三维环境下的无人机自主导航与避障;②研究智能优化算法(如CPO)在路径规划中的实际部署与性能优化;③实现多目标(路径最短、能耗最低、安全性最高)耦合条件下的工程化路径求解;④构建可扩展的智能无人系统决策框架。; 阅读建议:建议结合文中模型架构与代码示例进行实践运行,重点关注目标函数设计、CPO算法改进策略与约束处理机制,宜在仿真环境中测试不同场景以深入理解算法行为与系统鲁棒性。
在科技快速演进的时代背景下,移动终端性能持续提升,用户对移动应用的功能需求日益增长。增强现实、虚拟现实、机器人导航、自动驾驶辅助、手势识别、物体检测与距离测量等前沿技术正成为研究与应用的热点。作为支撑这些技术的核心,双目视觉系统通过模仿人类双眼的成像机制,同步获取两路图像数据,并借助图像处理与立体匹配算法提取场景深度信息,进而生成点云并实现三维重建。这一技术体系对提高移动终端的智能化程度及优化人机交互体验具有关键作用。 双目视觉系统需对同步采集的两路视频流进行严格的时间同步与空间校正,确保图像在时空维度上精确对齐,这是后续深度计算与立体匹配的基础。立体匹配旨在建立两幅图像中对应特征点的关联,通常依赖复杂且高效的计算算法以满足实时处理的要求。点云生成则是将匹配后的特征点转换为三维空间坐标集合,以表征物体的立体结构;其质量直接取决于图像处理效率与匹配算法的精度。三维重建基于点云数据,运用计算机图形学方法构建物体或场景的三维模型,该技术在增强现实与虚拟现实等领域尤为重要,能够为用户创造高度沉浸的交互环境。 双目视觉技术已广泛应用于多个领域:在增强现实与虚拟现实中,它可提升场景的真实感与沉浸感;在机器人导航与自动驾驶辅助系统中,能实时感知环境并完成距离测量,为路径规划与决策提供依据;在手势识别与物体检测方面,可精准捕捉用户动作与物体位置,推动人机交互设计与智能识别系统的发展。此外,结合深度计算与点云技术,双目系统在精确距离测量方面展现出显著潜力,能为多样化的应用场景提供可靠数据支持。 综上所述,双目视觉技术在图像处理、深度计算、立体匹配、点云生成及三维重建等环节均扮演着不可或缺的角色。其应用跨越多个科技前沿领域,不仅推动了移动设备智能化的发展,也为丰富交互体验提供了坚实的技术基础。随着相关算法的持续优化与硬件性能的不断提升,未来双目视觉技术有望在各类智能系统中实现更广泛、更深层次的应用。 资源来源于网络分享,仅用于学习交流使用,请勿用于商业,如有侵权请联系我删除!
### 关于 AAAI 2025 论文的相关信息 AAAI 是人工智能领域的重要国际学术会议之一,涵盖了广泛的学科主题,包括但不限于机器学习、自然语言处理、计算机视觉等领域。对于寻找特定年份的会议论文集,通常可以通过官方渠道获取最权威的信息。 #### 官方资源 可以访问 AAAI 官网页面来了解历届会议详情以及相关出版物链接[^2]。具体到 AAAI 2025论文集合,建议关注其官方网站发布的最新通知或者通过数据库服务提供商如 DBLP 搜索相关内容[^4]。 #### 技术前沿示例 一项值得注意的技术进展涉及大语言模型应用于表格理解方面的工作,在即将举行的 AAAI 2025 上可能会有进一步探讨发展方向展示。例如,“HeGTa” 方法利用异构图增强型大语言模型实现了少量样本条件下的复杂表格解析能力[^5]。 以下是基于上述背景整理的一段 Python 脚本用于自动化查询指定关键词在某段时间内的研究文章: ```python import requests from bs4 import BeautifulSoup def fetch_papers(conference_name="AAAI", year=2025): base_url = f"https://www.{conference_name.lower()}.org/{year}/papers/" try: response = requests.get(base_url) soup = BeautifulSoup(response.text, 'html.parser') paper_list = [] for item in soup.find_all('div', class_='paper'): title = item.h3.a.string.strip() authors = ', '.join([author.text.strip() for author in item.select('.authors span')]) abstract = item.p.text.strip() paper_info = { "title": title, "authors": authors, "abstract": abstract[:100]+'...' if len(abstract)>100 else abstract } paper_list.append(paper_info) return paper_list except Exception as e: print(f"Error fetching data from {base_url}: {e}") return [] if __name__ == "__main__": results = fetch_papers("AAAI", 2025) for idx, result in enumerate(results[:5]): print(f"{idx+1}. Title: {result['title']}\n Authors: {result['authors']}\n Abstract: {result['abstract']}\n") ``` 此脚本仅为示意用途,请根据实际需求调整抓取逻辑并确保遵守目标网站的服务条款。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值