Language Models, Agent Models, and World Models: The LAW for Machine Reasoning and Planning

828 篇文章

已下架不支持订阅

本文提出LAW框架,结合语言模型、代理模型和世界模型,以增强机器推理和规划能力。该框架引入信念、预期、目标及战略规划,旨在提供比现有语言模型更强大的推理。LAW利用语言模型作为后端,通过融合认知基础的模型解决多样化任务,同时也指出了框架的局限性和未来研究方向。

本文是LLM系列文章,针对《Language Models, Agent Models, and World Models: The LAW for Machine Reasoning and Planning》的翻译。

语言模型、代理模型和世界模型:机器推理和规划定律

摘要

尽管大型语言模型在许多应用程序中取得了巨大成功,但由于其推理、学习和建模能力的固有局限性,它们在各种(语言、具体化和社会化)场景中往往无法实现一致的推理和规划。在这篇立场论文中,我们提出了机器推理的一个新视角,即LAW,它将语言模型、代理模型和世界模型的概念联系起来,以获得更强大和通用的推理能力。特别是,我们提出世界和代理人模型是推理的更好抽象,它引入了深思熟虑的类人推理的关键元素,包括对世界和其他代理人的信念、对后果的预期、目标/回报和战略规划。至关重要的是,LAW中的语言模型充当了实现系统或其元素的后端,从而提供了计算能力和适应性。我们回顾了最近取得相关进展的研究,并讨论了未来实施法律框架的研究方向。

1 引言

2 前言:三个模型

3 LAW框架

4 讨论

我们提出了LAW框架作为公式化机器推理的一个新视角。LAW融合了信念、未来预期、目标/回报和战略规划等关键要素,旨在实现比当前语言模型推理更强大、更通用的推理能力。LAW框架的各个方面与最近关于构建世界模型和代理模型的建议一致。至关重要的是,LAW引入了一个综合框架,以认知基础的方式将三个模型结合起来,以解决广泛的任务。我们已经讨论了现有的语言模型如何作为与世界和代理世界进行推理的后端。我们还提出了增强语言模型后端的世界和代理建模能力的可能方法,包括新的训练范式和增强多模态能力。
我们认识到法律框架有其局限性。首先,语言模型后端隐含了离散空间中的符号表示。我们已经讨论了用由其他模态建模的额外

已下架不支持订阅

### ReAct框架在语言模型中的协同推理与行动 ReAct 是一种旨在增强语言模型能力的框架,它通过允许模型执行动态推理来创建、维护并调整行动计划,从而实现更高效的决策过程[^2]。具体来说,在 ReAct 的设计中,模型被赋予了两种核心功能:**推理(Reasoning)** 和 **行动(Action-taking)**。 #### 推理模块的功能 推理模块负责分析当前环境状态以及历史交互数据,生成高层次的战略规划或中间目标。这种推理可以基于输入上下文进行复杂逻辑推导,并预测可能的结果。例如,当面对复杂的多步任务时,推理部分会分解整个流程为若干子任务,并制定初步方案。 #### 行动模块的作用 一旦制定了策略或者明确了下一步方向之后,就需要采取实际行动去改变外部世界的状态或者是获取更多信息以便进一步优化后续步骤的选择。因此,行动模块依据来自推理层给出的具体指示完成实际操作——这可能是查询数据库、调用API接口亦或是物理机器人移动等不同类型的动作表现形式。 #### 动态反馈机制 值得注意的是,ReAct 并不是一次性地决定所有的行为序列;相反,它是持续监控每一步的效果并通过观察新产生的结果来进行自我修正的过程。这意味着即使最初的假设存在偏差甚至完全错误的情况下,该系统也能够及时发现这些问题所在之处并对原定计划作出相应修改直至达成最终目的为止。 ```python def react_framework(environment_state, history): while not goal_achieved(): reasoning_output = perform_reasoning(environment_state, history) action_to_take = determine_action(reasoning_output) new_environment_state, feedback = execute_and_observe(action_to_take) update_history(history, reasoning_output, action_to_take, feedback) def perform_reasoning(state, hist): # Complex logic to derive insights from state & history. pass def determine_action(insights): # Map derived insights into actionable steps. pass def execute_and_observe(action): # Execute an action and observe its effects on environment. pass def update_history(hist, r_out, a_taken, fbk): # Update internal records with latest information. pass ``` 上述伪代码展示了 ReAct 框架的一个简化版本工作流。其中包含了循环结构用于不断迭代直到满足终止条件即达到预定的目标位置;每次循环内部先做思考再付诸实践最后收集经验教训准备下一轮尝试。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值