破解百年文献提取瓶颈,清华大学ReactionSeek化学之眼来自鹰谷InDraw

图片

2025年初,清华大学研究团队在预印本平台ChemRxiv上发表了一项名为《ReactionSeek: LLM-Powered Literature Data Mining and Knowledge Discovery in Organic Synthesis(ReactionSeek:大语言模型支持的有机合成文献数据挖掘和知识发现,下文简称ReactionSeek)》的重磅研究。他们开发的这套文献挖掘系统,成功处理了《Organic Syntheses》杂志自1921年以来的全部文献,自动构建出可供AI学习的、有机合成知识库,准确率超过95%

而这项研究的图像识别模块,使用的正是鹰谷信息的InDraw结构式编辑器,它负责将文献中的分子结构图像精准转换为机器可读的SMILES表达式。

一、清华研究的“化学之眼”:InDraw如何助力AI读懂百年文献

在有机合成、药物研发等领域,科研人员常面临两大痛点:一是文献里的分子结构图片难以编辑复用,二是海量文献数据手动提取耗时耗力。《ReactionSeek》研究直面本挑战:如何让计算机“看懂”文献中复杂的化学结构图像,从而高效利用

清华团队选择了InDraw的OCSR(光学化学结构识别)功能,将文献图片中的分子结构转换为SMILES码。结果显示,InDraw在识别化合物标识符及其在反应中的角色方面准确率极高,为后续的数据分析和知识发现奠定了坚实基础。

清华这项工作的重要意义在于:它首次系统性地将复杂多样的百年化学文献转化为结构化数据,为AI驱动的化学发现打开了知识宝库。而InDraw在其中承担了关键的“化学视觉”功能,让机器第一次真正“看懂”了化学结构。

二、不只是“识别”:InDraw的硬核技术矩阵

作为鹰谷信息自主研发的专业级化学结构式编辑器,InDraw的价值远不止于图像识别。经过12年的技术积累,它已构建起完整的技术护城河:

1. 全球领先的IUPAC命名能力

·全球首家实现中文IUPAC命名

·全球第四家实现英文IUPAC命名

·经1600万化合物测试,准确率高达99.55%

2. 精准的AI图像识别
在UO85740测试集上,识别准确率达99.75%,能够快速将图片格式的复杂化学结构转换为可编辑结构

3. 全面的大分子编辑
独有的HELM大分子编辑器,支持蛋白质、DNA、RNA、多糖等复杂结构的绘制与展示。

4. 无缝的国际兼容
实现与ChemDraw、Word、Excel的三向互通,支持主流期刊的绘图样式,已有数百篇使用InDraw绘制的论文在Nature、JMC等顶级期刊发表。

三、从结构识别到知识挖掘:InPaper智能进阶

基于同样的技术底蕴,鹰谷还推出了InPaper文献结构化工具,将化学文献的智能解析推向新高度:

·精准提取:自动识别文献中的化学结构、反应式和生物活性数据

·智能转换:将文本中的化学名称自动转为可编辑的结构式

·构效分析:自动构建结构-活性关系表(SAR),为药物研发等提供数据支撑

·批量处理:支持大量文献的快速解析、在线修正另存、Excel导出

InPaper的出现,让科学家从繁琐的数据提取中解放出来,将更多精力投入到创新发现中。

四、国产科研软件的破局之路

从被国际巨头垄断,到被清华大学顶级研究选用,InDraw的成长轨迹映射出国产科研软件的崛起之路。

目前,InDraw已拥有超过100万用户,覆盖国内外各大高校、科研院所和企业单位,被华为、艾力斯、中海油、国家知识产权局等知名机构采用。2025年底即将推出的7.0版本,在保持大部分功能免费的同时,将为企业用户提供更强大的专业功能。

鹰谷团队坚信:科研工具不应成为制约创新的瓶颈;通过我们持续的技术攻关,我国科学家必然“用得上、用得起、用得好”。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值