ATOMWORLD: A BENCHMARK FOR EVALUATING SPATIAL REASONING IN LARGE LANGUAGE MODELS ON CRYSTALLINE MATE

该文章提出了首个评估大型语言模型(LLMs)在晶体材料领域空间推理能力的基准测试集AtomWorld,揭示了当前LLMs在晶体结构操作与理解上的局限性,并为后续模型优化提供了方向。

一、文章主要内容总结

  1. 研究背景

    • 现有LLMs虽在文本推理和基础晶体生成任务中表现出色,但缺乏标准化基准来系统评估其在复杂原子结构上的核心推理能力,尤其是基于晶体信息文件(CIF)的空间操作能力。
    • 材料科学领域中,3D原子结构的深度理解至关重要,而当前LLMs在结构修改、格式理解等任务中易出现累积错误,影响后续材料分析。
  2. 核心方案:AtomWorld基准

    • 数据生成逻辑:核心是“输入CIF(操作前)+动作指令+输出CIF(操作后)”的三段式数据结构,支持10类真实科研场景的结构修改动作,如点缺陷掺杂(change/remove/add)、表面生成(delete_below)、结构旋转(rotate_around)等。
    • 评估维度:通过成功率(输出格式、结构格式、结构匹配三层校验)和平均最大距离(max_dist,衡量原子位移偏差)两个核心指标,评估LLMs的“运动技能”(几何操作能力)。
    • 补充测试集:设计PointWorld(剥离CIF格式,仅测试空间变换)、CIF读写测试(CIF-Repair/CIF-Gen)、化学能力评分(CCS)、结构
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值