文章核心总结与翻译
一、主要内容
本文针对网络物理系统(CPS)中时空推理的评估需求,提出了分层基准测试STARK(SpatioTemporal reAsoning benchmaRK),系统评估了8个大型语言模型(LLMs)和3个大型推理模型(LRMs)的时空推理能力。STARK包含26类时空任务、14552个测试实例,分为状态估计、状态推理、世界知识感知推理三个层级,支持直接回答(DA)和Python代码解释器(CI)两种评估模式。实验表明,LRMs在几何推理、定位跟踪等任务中表现稳健,常优于传统方法;LLMs在复杂几何任务中表现有限,但在世界知识相关任务中与LRMs差距缩小;模型规模对推理性能有显著影响,o3模型在所有任务中表现领先。
二、创新点
- 提出分层评估框架:按状态估计、状态推理、世界知识感知推理三级结构设计,精准定位模型在不同复杂度任务中的能力边界。
- 任务设计新颖且严谨:涵盖场变量预测、时空定位等未充分探索的任务,采用开放式数值输出而非选择题,同时评估工具使用能力。
- 多模态与实用性:模拟5类传感器模态,注入真实噪声,支持代码解释器评估模式,贴合CPS实际应用场景。
- 开放资源支持:提供STARK-L(1.4万样本)和STARK-S(1.3千样本)两个版本及代码,便于复现和后续研究。
三、核心部分翻译(Markdown格式)
Abstract
时空

订阅专栏 解锁全文
969

被折叠的 条评论
为什么被折叠?



