本文是LLM系列文章,针对《Can Large Language Models Reason about the Region Connection Calculus?》的翻译。
摘要
定性空间推理是知识表示和推理的一个深入研究的领域,具有从地理信息系统到机器人和计算机视觉的多种应用。最近,人们对大型语言模型(LLM)的推理能力提出了许多主张。在这里,我们研究了一组代表性的LLM在分体拓扑区域连接演算(RCC-8)上执行经典定性空间推理任务的程度。我们使用最先进的LLM进行了三对实验(成分表的重建、与人类成分偏好的对齐、概念邻域重建);在每一对中,一个实验使用同名关系,另一个实验使用匿名关系(以测试LLM对训练期间获得的关系名称知识的依赖程度)。所有实例均重复 30 次,以衡量 LLM 的随机性。尽管比偶然性要好,但没有测试过的LLM表现特别好。
1 引言
2 相关工作
3 实验设计
4 组合推理
5 总结
6 结束语和未来工作
研究结果支持了人们普遍持有的观点,即LLMs可能很难