2024_NIPS_Benchmarking Spatiotemporal Reasoning in LLMs and Reasoning Models: Capabilities and Chall

文章核心总结与翻译

一、主要内容

本文针对网络物理系统(CPS)中时空推理的评估需求,提出了分层基准测试STARK(SpatioTemporal reAsoning benchmaRK),系统评估了8个大型语言模型(LLMs)和3个大型推理模型(LRMs)的时空推理能力。STARK包含26类时空任务、14552个测试实例,分为状态估计、状态推理、世界知识感知推理三个层级,支持直接回答(DA)和Python代码解释器(CI)两种评估模式。实验表明,LRMs在几何推理、定位跟踪等任务中表现稳健,常优于传统方法;LLMs在复杂几何任务中表现有限,但在世界知识相关任务中与LRMs差距缩小;模型规模对推理性能有显著影响,o3模型在所有任务中表现领先。

二、创新点

  1. 提出分层评估框架:按状态估计、状态推理、世界知识感知推理三级结构设计,精准定位模型在不同复杂度任务中的能力边界。
  2. 任务设计新颖且严谨:涵盖场变量预测、时空定位等未充分探索的任务,采用开放式数值输出而非选择题,同时评估工具使用能力。
  3. 多模态与实用性:模拟5类传感器模态,注入真实噪声,支持代码解释器评估模式,贴合CPS实际应用场景。
  4. 开放资源支持:提供STARK-L(1.4万样本)和STARK-S(1.3千样本)两个版本及代码,便于复现和后续研究。

三、核心部分翻译(Markdown格式)

Abstract

时空

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值