最新开源:开源科研神器 OpenScholar 来了!能检索4500万篇论文,科研效率提升10倍!

来源:HsuDan

开源科研神器 OpenScholar 来了!能检索4500万篇论文,科研效率提升10倍!超越GPT-4o!

在这里插入图片描述

  • 论文地址:https://arxiv.org/abs/2411.14199
  • 官方博客:https://allenai.org/blog/openscholar
  • 代码地址:https://github.com/AkariAsai/OpenScholar
  • Demo地址:https://openscholar.allen.ai/

最近,华盛顿大学NLP实验室和Ai2、Meta等机构合作,开发了专门服务科研人的学术搜索工具 OpenScholar。

OpenScholar 还是首个从论文到数据集、模型检查点都完全开源的科研助手模型。

本质上,OpenScholar 是一个进行过检索增强(retrieval-augmented)的语言模型,外接一个包含4500万篇论文的数据库,性能可以优于专有系统,甚至媲美人类专家。

随着每年数百万篇论文的发表,科学家们越来越难以找到所需的信息或跟上单个子领域的最新发现。OpenScholar 通过首先搜索文献中的相关论文,然后生成基于这些来源的回答,来回答用户的查询。

在这里插入图片描述

图1. OpenScholar 概述、ScholarQABench 概述和自动化&人类专家评估结果

为了方便自动化评估,研究团队还推出了全新的大规模基准 ScholarQABench,覆盖了CS、生物、物理等多个学科,用于评价模型在引用准确性、涵盖度和质量的等方面的表现。

在这里插入图片描述

图3. SchlarQA-CS 的数据样例和评估概述

具体的评估结果如下表所示:

+OSDS 表示外接了数据库 OpenScholar-DataStore 并检索到 top N 段落拼接到原始输入中;
OS-8B 模型经过重新训练,OS-70B 和 OS-GPT-4o 仅仅使用了团队自定义的推理pipeline。

在这里插入图片描述

总体而言, OpenScholar 实现了SOTA性能,大大优于 GPT-4o 和相应的标准 RAG 版本,以及 PaperQA2 等专用的文献综述系统。

  • 在单篇论文任务中, OpenScholar 始终优于其他模型。无论是否有检索增强,OS-8B 和 OS-70B 均优于原来的 Llama 3.1 模型,OS-70B 在 PubMedQA 和 QASA 上甚至可以对打 GPT-4o。
  • 在多论文任务中,OS-8B、OS-70B 和 OS-GPT4o 表现出强大的性能,OS-GPT4o 在Scholar-CS 中比单独的 GPT-4o 提高 12.7%,比标准RAG版本提高了 5.3 %。OpenScholar-8B 的性能远远优于 GPT-4o、Perplexity Pro 和PaperQA2。

在搜索的可靠性方面,OpenScholar 更是远超 GPT-4o。

  • GPT-4o 在 90% 以上的情况下都引用了不存在的论文,而 OpenScholar 的结果都是来自确定来源。
  • 在信息覆盖率、实用性、相关性等多个维度方面,OpenScholar 撰写的结果都优于 GPT-4o。

在这里插入图片描述

参考:

https://allenai.org/blog/openscholar

欢迎各位关注我的个人微信公众号:HsuDan,我将分享更多自己的学习心得、避坑总结、面试经验、AI最新技术资讯。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值