高质量开源科学数据集,1.2万本大学级教材

大模型的数学、编程的训练数据集不少,但关于科学领域的高质量训练数据集并不多。所以,上海交通大学 SII-GAIR 实验室的研究团队开源了一个高质量科学数据集TextBookReaSoning(简称“TBRS”)。

TBRS是基于 超过1.2万本大学级科学教材,包含 65 万个推理问题,涵盖物理学、生物学、化学、医学、计算机科学、数学和经济学七大领域。

开源地址:https://huggingface.co/MegaScience 

为了确保数据集的高质量,团队首先对收集到的教材进行了严格的筛选,排除了那些标记为限制公共访问的书籍。随后,利用先进的自然语言处理技术,特别是Llama3.3-70B-Instruct模型,对每本书的主题领域和学术水平进行了自动分类,确保所有入选的教材都达到大学水平。这一过程不仅提高了数据集的学术标准,还为后续的数据处理奠定了坚实的基础。

在教材数字化方面,研究团队采用了olmOCR工具,将PDF格式的教材转换为机器可读的文本格式。这一转换过程不仅保留了教材的原始内容,还为后续的数据处理提供了便利。通过这一系列的收集和数字化处理,研究团队成功构建了一个包含12800本学术书籍的高质量数据集,为科学推理数据集的开发提供了丰富的素材。

在教材数字化之后,研究团队面临的下一个挑战是如何从这些教材中提取出高质量的问答对。传统的问答对提取方法往往存在一定的局限性,例如只能提取简单的问题,或者生成的问题缺乏深度和逻辑性。为了克服这些局限性,研究团

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值