
文章主要内容总结
本文针对大型语言模型(LLMs)在分子结构解析任务中存在的化学知识不足、推理评估能力弱等问题,提出了一种知识增强的推理框架K-MSE(Knowledge-enhanced reasoning framework for Molecular Structure Elucidation)。该框架以蒙特卡洛树搜索(MCTS)为基础,可作为插件与任意LLM结合,显著提升分子结构解析性能。
具体而言,研究的核心问题是LLMs在处理核磁共振(NMR)、红外(IR)等光谱数据推断分子结构时,存在两大局限:一是对化学分子结构空间的覆盖不全面(如难以准确识别噻吩等特殊亚结构);二是无法准确评估和修正自身推理过程,影响树搜索等复杂推理的效率。
为解决这些问题,K-MSE从三方面入手:
- 构建分子亚结构知识库:整合常见分子亚结构(如环结构、链结构)及其文本描述,补充LLMs的化学知识覆盖;
- 设计专门的分子-光谱评分器:作为奖励模型,通过分子编码器和光谱编码器计算分子结构与光谱数据的匹配度,提供准确的推理评估反馈;
- 结合MCTS推理框架:通过检索知识库获取相关亚结构,再经选择、扩展、评估、反向传播等迭代步骤,实现推理过程的动态优化。
实验在MolPuzzle基准数据集上验证了K-MSE的有

订阅专栏 解锁全文
9101

被折叠的 条评论
为什么被折叠?



