最新开源：开源科研神器 OpenScholar 来了！能检索4500万篇论文，科研效率提升10倍！

最新推荐文章于 2025-04-08 11:59:25 发布

快乐小码农

最新推荐文章于 2025-04-08 11:59:25 发布

阅读量1.3k

点赞数 12

分类专栏：开源大模型学术论文 AI框架平台、必备工具文章标签：开源大模型人工智能聊天机器人

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/u012744245/article/details/144114865

版权

开源大模型同时被 3 个专栏收录

57 篇文章

订阅专栏

11 篇文章

订阅专栏

AI框架平台、必备工具

5 篇文章

订阅专栏

来源：HsuDan

开源科研神器 OpenScholar 来了！能检索4500万篇论文，科研效率提升10倍！超越GPT-4o！

在这里插入图片描述

论文地址：https://arxiv.org/abs/2411.14199
官方博客：https://allenai.org/blog/openscholar
代码地址：https://github.com/AkariAsai/OpenScholar
Demo地址：https://openscholar.allen.ai/

最近，华盛顿大学NLP实验室和Ai2、Meta等机构合作，开发了专门服务科研人的学术搜索工具 OpenScholar。

OpenScholar 还是首个从论文到数据集、模型检查点都完全开源的科研助手模型。

本质上，OpenScholar 是一个进行过检索增强（retrieval-augmented）的语言模型，外接一个包含4500万篇论文的数据库，性能可以优于专有系统，甚至媲美人类专家。

随着每年数百万篇论文的发表，科学家们越来越难以找到所需的信息或跟上单个子领域的最新发现。OpenScholar 通过首先搜索文献中的相关论文，然后生成基于这些来源的回答，来回答用户的查询。

在这里插入图片描述

图1. OpenScholar 概述、ScholarQABench 概述和自动化&人类专家评估结果

为了方便自动化评估，研究团队还推出了全新的大规模基准 ScholarQABench，覆盖了CS、生物、物理等多个学科，用于评价模型在引用准确性、涵盖度和质量的等方面的表现。

在这里插入图片描述

图3. SchlarQA-CS 的数据样例和评估概述

具体的评估结果如下表所示：

+OSDS 表示外接了数据库 OpenScholar-DataStore 并检索到 top N 段落拼接到原始输入中；
OS-8B 模型经过重新训练，OS-70B 和 OS-GPT-4o 仅仅使用了团队自定义的推理pipeline。

在这里插入图片描述

总体而言， OpenScholar 实现了SOTA性能，大大优于 GPT-4o 和相应的标准 RAG 版本，以及 PaperQA2 等专用的文献综述系统。

在单篇论文任务中， OpenScholar 始终优于其他模型。无论是否有检索增强，OS-8B 和 OS-70B 均优于原来的 Llama 3.1 模型，OS-70B 在 PubMedQA 和 QASA 上甚至可以对打 GPT-4o。
在多论文任务中，OS-8B、OS-70B 和 OS-GPT4o 表现出强大的性能，OS-GPT4o 在Scholar-CS 中比单独的 GPT-4o 提高 12.7%，比标准RAG版本提高了 5.3 %。OpenScholar-8B 的性能远远优于 GPT-4o、Perplexity Pro 和PaperQA2。

在搜索的可靠性方面，OpenScholar 更是远超 GPT-4o。

GPT-4o 在 90% 以上的情况下都引用了不存在的论文，而 OpenScholar 的结果都是来自确定来源。
在信息覆盖率、实用性、相关性等多个维度方面，OpenScholar 撰写的结果都优于 GPT-4o。

在这里插入图片描述

参考：

https://allenai.org/blog/openscholar

欢迎各位关注我的个人微信公众号：HsuDan，我将分享更多自己的学习心得、避坑总结、面试经验、AI最新技术资讯。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。