该文章提出了首个评估大型语言模型(LLMs)在晶体材料领域空间推理能力的基准测试集AtomWorld,揭示了当前LLMs在晶体结构操作与理解上的局限性,并为后续模型优化提供了方向。
一、文章主要内容总结
-
研究背景
- 现有LLMs虽在文本推理和基础晶体生成任务中表现出色,但缺乏标准化基准来系统评估其在复杂原子结构上的核心推理能力,尤其是基于晶体信息文件(CIF)的空间操作能力。
- 材料科学领域中,3D原子结构的深度理解至关重要,而当前LLMs在结构修改、格式理解等任务中易出现累积错误,影响后续材料分析。
-
核心方案:AtomWorld基准
- 数据生成逻辑:核心是“输入CIF(操作前)+动作指令+输出CIF(操作后)”的三段式数据结构,支持10类真实科研场景的结构修改动作,如点缺陷掺杂(change/remove/add)、表面生成(delete_below)、结构旋转(rotate_around)等。
- 评估维度:通过成功率(输出格式、结构格式、结构匹配三层校验)和平均最大距离(max_dist,衡量原子位移偏差)两个核心指标,评估LLMs的“运动技能”(几何操作能力)。
- 补充测试集:设计PointWorld(剥离CIF格式,仅测试空间变换)、CIF读写测试(CIF-Repair/CIF-Gen)、化学能力评分(CCS)、结构
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



