
文章主要内容总结
本文提出了一种名为LTLCrit的模块化演员-批评家(actor-critic)架构,旨在提升大型语言模型(LLMs)在具身代理(embodied agents)长期规划任务中的安全性和效率。该架构将LLM的推理能力与形式逻辑的可靠性相结合,核心包括:
- 架构设计:由LLM演员(actor)和LTLCrit批评家(critic)组成。演员基于自然语言观察选择高层动作,批评家通过线性时序逻辑(LTL)分析完整轨迹,生成新的LTL约束,避免未来的不安全或低效行为。
- 约束类型:包含人工指定的固定安全约束(如避免碰撞)和批评家自动生成的自适应效率约束(如减少冗余动作)。
- 实验验证:在Minecraft钻石挖掘任务中测试,结果显示该架构实现了100%的任务完成率,相比基线LLM规划器显著提升了效率,同时减少了不安全行为。
创新点
- 符号化演员-批评家架构:提出分时段的双层循环(在线演员循环实时决策,离线批评家循环优化约束),结合LLM的局部推理优势与长期一致性约束,支持现有LLM规划器作为演员,具备领域无关性。
- 基于时序逻辑的通信机制:通过LTL实现演员与批评
LTLCrit架构提升具身代理规划安全性与效率

订阅专栏 解锁全文
1750

被折叠的 条评论
为什么被折叠?



