AI Agent论文阅读

本文探讨了AIAgent的不同架构,如React的环境反馈机制、ChainofThought的推理过程和TreeofThought的树状结构,以及Reflexion如何增强强化学习。还介绍了Self-Ask和Plan-and-executeagents的特点及局限性。

目录

如何理解一个 agent?

Agent架构

什么是React?

什么是 Chain of Thought?

特点

结论

局限性

Zero-shot CoT

 Auto-CoT

什么是 Tree of Thought?

什么是 Reflexion?

Agent类型

React

Self-ask

Plan-and-execute agents


如何理解一个 agent?

目前与AI的交互形式基本上都是你输入指令,AI模型会根据你的指令内容做出响应,这样就是导致你每次在进行提供有效的提示词才能达到你想要的效果。

而AI Agent则不同,它被设计为具有独立思考和行动能力的AI程序。你只需要提供一个目标,比如写一个游戏、开发一个网页,他就会根据环境的反应和独白的形式生成一个任务序列开始工作。就好像是人工智能可以自我提示反馈,不断发展和适应,以尽可能最好的方式来实现你给出的目标。

Agent架构

配置模块

内存模块

规划模块

1.无反馈规划                                                             

  1)单路径规划                                                          2) 多路径规划

    Chain Of Thought                                                  Tree Of Thought

2.有反馈规划

  1)环境反馈

来自客观世界或虚拟环境。例如,它可能是游戏的任务完成信号或代理采取行动后的观察结果

    React

  2) 人类反馈

除了从环境中获取反馈外,与人直接互动也是增强代理规划能力的一种直观策略

  3) 模型反馈

来自代理自身的内部反馈的利用

提出了一种自我改进机制。该机制由三个关键组件组成:输出、反馈和改进。首先,代理人生成一个输出。然后,它使用 LLM 对输出进行反馈,并提供如何改进输出的指导。最后,输出通过反馈和改进得到改善。这个输出-反馈-改进过程会迭代直到达到某些期望条件。

动作模块

什么是React?

环境反馈

ReAct 实际上是一种通过多次调用 LLM 以交错的方式生成推理轨迹和特定于任务的动作,从而实现两者之间更大的协同作用

推理轨迹帮助模型归纳、跟踪和更新行动计划以及处理异常,而操作允许它与外部源(例如知识库或外部环境、API)交互,以收集附加信息。

由此上面的定义可知,ReAct需要迭代的使用 3 类元素:

Thought (思考)。LLM基于用户提出的问题进行推理(Reasoning),并根据推理的结果采取某种行为,类似人类大脑的思考、决策过程。
Action (行为)。LLM将决策行为动作的指令发送给外部源(比如调用知识库、外部的API),这就是行为。在上面的例子

### 关于 AI Agents 的研究论文列表 以下是与 AI Agents 相关的研究论文列表,这些论文涵盖了自动化任务、多智能体系统以及人类行为分析等多个领域: #### 自动化任务中的 AI Agent 一篇关于自动化的文章提到,“AI Agent for automating repetitive tasks” 是 Bardeen 提供的服务之一[^1]。这表明该平台可能基于某些先进的研究成果来实现其功能。 虽然具体论文未提及,但可以推测此类应用依赖的核心技术包括但不限于强化学习 (Reinforcement Learning) 和模仿学习 (Imitation Learning),以下是一些经典的相关论文- **Sutton, R. S., & Barto, A. G. (2018). Reinforcement learning: An introduction. MIT press.** - 这本书被认为是理解强化学习的基础教材,适用于设计能够完成重复性工作的自主代理。 - **Silver, D., et al. (2016). Mastering the game of Go with deep neural networks and tree search. Nature, 529(7587), 484–489.** - AlphaGo 使用的方法展示了如何通过深度神经网络和蒙特卡洛树搜索相结合的方式训练高效的决策型 AI Agent。 #### 多智能体系统的理论基础 Taro Langner 整理的一份清单中提到了许多重要的 AI 领域参考资料[^2]。其中涉及多智能体协作的部分尤其值得关注,因为这是构建复杂环境下的分布式 AI Agent 所必需的知识点。 推荐几篇经典的多智能体系统相关文献如下: - **Busoniu, L., Babuska, R., De Schutter, B., & Ernst, D. (2008). Reinforcement learning and dynamic programming using function approximators. CRC Press.** - 此书深入探讨了函数逼近器在解决大规模状态空间问题上的作用,这对于开发高效能的多智能体算法至关重要。 - **Lowe, R., Wu, Y., Tamar, A., Harb, J., Abbeel, P., & Mordatch, I. (2017). Multi-agent actor-critic for mixed cooperative-competitive environments. Advances in Neural Information Processing Systems, 30.** - MADDPG 方法开创性地解决了混合合作竞争环境下多个智能体之间的交互难题。 #### 人脸与姿态识别背景下的 AI Agent 应用案例 来自 IEEE International Conference on Automatic Face and Gesture Recognition 的最新进展显示,在面部表情理解和人体动作捕捉方面取得了显著成果[^3]。这类技术通常被集成到社交机器人或者虚拟助手当中作为感知模块的一部分。 建议阅读下面这篇有关视觉驱动型 AI Agent 的代表性工作: - **Pavlovic, V. I., Sharma, R., Huang, T. S. (1997). Visual interpretation of hand gestures for human-computer interaction: a review. IEEE Transactions on Pattern Analysis and Machine Intelligence, 19(7): 677-695.** --- ```python import requests def fetch_papers(topic): url = f"https://api.semanticscholar.org/graph/v1/paper/search?query={topic}&limit=10" response = requests.get(url) data = response.json() return [(paper['title'], paper['url']) for paper in data['data']] papers_list = fetch_papers('AI Agent') for title, link in papers_list: print(f"- [{title}]({link})") ``` 上述 Python 脚本可以帮助动态获取最新的学术资源链接。 ---
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值