强化学习入门:AI 智能体背后的智慧
1. 什么是人工智能以及强化学习与它有何关系
从不同组织的营销角度来看,人工智能可能涵盖了从传统分析到更前沿的深度学习和聊天机器人等各种系统。但从技术上讲,人工智能(AI)术语的使用仅限于对能够“人性化”行动的“理性”智能体的研究和设计。不同研究者和作者对人工智能给出了众多定义,判定一个智能体为 AI 智能体的标准是它应具备“思考过程和推理能力”、“智能行为”、“在人类表现方面取得成功”以及“理性”。这一标准有助于我们从营销炒作中辨别出真正的人工智能系统和应用。
在众多人工智能智能体中,强化学习智能体被认为是最先进的,能够展现出高度的智能和理性行为。强化学习智能体与环境进行交互,环境本身可以呈现多种状态。智能体对环境采取行动以改变其状态,同时根据所达成的状态和自身目标获得奖励或惩罚。这个定义看似简单,但背后的概念推动了许多先进 AI 智能体的发展,使其能够执行非常复杂的任务,有时甚至在特定任务上挑战人类的表现。
2. 理解强化学习的基本设计
下图展示了强化学习系统的基本设计,包含“学习”和“行动”循环。智能体与环境交互,在步骤 t 时,根据环境所处的给定状态(St)学习采取最佳可能行动(at)。智能体的行动会将环境状态从 St 改变为 St+1,并为智能体生成奖励 rt。然后,智能体针对新状态(St+1)采取最佳可能行动,从而引发奖励 rt+1,依此类推。在一系列迭代(在智能体的训练过程中称为实验)中,智能体利用训练过程中获得的奖励来改进其在给定环境状态下选择“最佳行动”的决策。
graph LR
classDef starte
超级会员免费看
订阅专栏 解锁全文
1478

被折叠的 条评论
为什么被折叠?



