一、文章主要内容
本文提出了首个无需微调或专门训练,就能让任何现成的本地大型语言模型(LLMs)完整参与“全面外交”(Full-Press Diplomacy)游戏的评估框架。该框架解决了此前因“外交”游戏状态复杂度高、信息密度大,且比赛方差大,导致只有前沿LLMs或经微调的模型才能参与研究的问题。
研究团队通过数据驱动迭代优化文本游戏状态表示,使240亿参数的模型也能可靠完成游戏。同时开发了支持假设检验和统计分析的工具,开展了关于说服力、激进游戏风格及不同模型性能的案例研究。实验覆盖多款主流LLMs,发现更大模型表现更优,但较小模型也能充分参与游戏。此外,还引入“关键状态分析”(Critical State Analysis)实验协议,可快速迭代并深入分析游戏关键节点,最终实现LLM战略推理评估的普及,揭示了这些能力在常用LLMs中的自然涌现。
二、文章创新点
- 通用LLM适配的评估框架:首次实现无需微调,让各类本地LLMs(包括240亿参数的中小型模型)参与完整“全面外交”游戏,打破此前仅前沿或微调模型能参与的限制。
- 优化的游戏状态表示:通过数据驱动迭代,将复杂的游戏状态转化为适合LLMs决策的文本表示,包含棋盘状态、战略分析、智能体上下文等多维度信息,提升模型决策可靠性。
- 关键状态分析协议:提出可快速迭代和深入分析游戏关键节点的实验方法,大幅降低实验成本(所需tokens约为模拟完整比赛的1/80),支持高效的 prompt 优化和说服力等研究。

订阅专栏 解锁全文
125

被折叠的 条评论
为什么被折叠?



