1、强化学习入门：AI 智能体背后的智慧

最新推荐文章于 2025-12-07 20:47:24 发布

lstm7chronicler

最新推荐文章于 2025-12-07 20:47:24 发布

阅读量35

点赞数

CC 4.0 BY-SA版权

分类专栏：深度强化学习：从理论到实践文章标签：强化学习人工智能智能体

本文链接：https://blog.youkuaiyun.com/lstm7chronicler/article/details/149846401

深度强化学习：从理论到实践专栏收录该内容

18 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

强化学习入门：AI 智能体背后的智慧

1. 什么是人工智能以及强化学习与它有何关系

从不同组织的营销角度来看，人工智能可能涵盖了从传统分析到更前沿的深度学习和聊天机器人等各种系统。但从技术上讲，人工智能（AI）术语的使用仅限于对能够“人性化”行动的“理性”智能体的研究和设计。不同研究者和作者对人工智能给出了众多定义，判定一个智能体为 AI 智能体的标准是它应具备“思考过程和推理能力”、“智能行为”、“在人类表现方面取得成功”以及“理性”。这一标准有助于我们从营销炒作中辨别出真正的人工智能系统和应用。

在众多人工智能智能体中，强化学习智能体被认为是最先进的，能够展现出高度的智能和理性行为。强化学习智能体与环境进行交互，环境本身可以呈现多种状态。智能体对环境采取行动以改变其状态，同时根据所达成的状态和自身目标获得奖励或惩罚。这个定义看似简单，但背后的概念推动了许多先进 AI 智能体的发展，使其能够执行非常复杂的任务，有时甚至在特定任务上挑战人类的表现。

2. 理解强化学习的基本设计

下图展示了强化学习系统的基本设计，包含“学习”和“行动”循环。智能体与环境交互，在步骤 t 时，根据环境所处的给定状态（St）学习采取最佳可能行动（at）。智能体的行动会将环境状态从 St 改变为 St+1，并为智能体生成奖励 rt。然后，智能体针对新状态（St+1）采取最佳可能行动，从而引发奖励 rt+1，依此类推。在一系列迭代（在智能体的训练过程中称为实验）中，智能体利用训练过程中获得的奖励来改进其在给定环境状态下选择“最佳行动”的决策。