来源:HsuDan
开源科研神器 OpenScholar 来了!能检索4500万篇论文,科研效率提升10倍!超越GPT-4o!
- 论文地址:https://arxiv.org/abs/2411.14199
- 官方博客:https://allenai.org/blog/openscholar
- 代码地址:https://github.com/AkariAsai/OpenScholar
- Demo地址:https://openscholar.allen.ai/
最近,华盛顿大学NLP实验室和Ai2、Meta等机构合作,开发了专门服务科研人的学术搜索工具 OpenScholar。
OpenScholar 还是首个从论文到数据集、模型检查点都完全开源的科研助手模型。
本质上,OpenScholar 是一个进行过检索增强(retrieval-augmented)的语言模型,外接一个包含4500万篇论文的数据库,性能可以优于专有系统,甚至媲美人类专家。
随着每年数百万篇论文的发表,科学家们越来越难以找到所需的信息或跟上单个子领域的最新发现。OpenScholar 通过首先搜索文献中的相关论文,然后生成基于这些来源的回答,来回答用户的查询。
图1. OpenScholar 概述、ScholarQABench 概述和自动化&人类专家评估结果
为了方便自动化评估,研究团队还推出了全新的大规模基准 ScholarQABench,覆盖了CS、生物、物理等多个学科,用于评价模型在引用准确性、涵盖度和质量的等方面的表现。
图3. SchlarQA-CS 的数据样例和评估概述
具体的评估结果如下表所示:
+OSDS 表示外接了数据库 OpenScholar-DataStore 并检索到 top N 段落拼接到原始输入中;
OS-8B 模型经过重新训练,OS-70B 和 OS-GPT-4o 仅仅使用了团队自定义的推理pipeline。
总体而言, OpenScholar 实现了SOTA性能,大大优于 GPT-4o 和相应的标准 RAG 版本,以及 PaperQA2 等专用的文献综述系统。
- 在单篇论文任务中, OpenScholar 始终优于其他模型。无论是否有检索增强,OS-8B 和 OS-70B 均优于原来的 Llama 3.1 模型,OS-70B 在 PubMedQA 和 QASA 上甚至可以对打 GPT-4o。
- 在多论文任务中,OS-8B、OS-70B 和 OS-GPT4o 表现出强大的性能,OS-GPT4o 在Scholar-CS 中比单独的 GPT-4o 提高 12.7%,比标准RAG版本提高了 5.3 %。OpenScholar-8B 的性能远远优于 GPT-4o、Perplexity Pro 和PaperQA2。
在搜索的可靠性方面,OpenScholar 更是远超 GPT-4o。
- GPT-4o 在 90% 以上的情况下都引用了不存在的论文,而 OpenScholar 的结果都是来自确定来源。
- 在信息覆盖率、实用性、相关性等多个维度方面,OpenScholar 撰写的结果都优于 GPT-4o。
参考:
https://allenai.org/blog/openscholar
欢迎各位关注我的个人微信公众号:HsuDan,我将分享更多自己的学习心得、避坑总结、面试经验、AI最新技术资讯。
