强化学习:原理、方法与应用
1. 强化学习概述
强化学习(RL)是一种顺序决策框架,在这个框架中,智能体(agent)学习在环境中执行动作,以最大化所获得的奖励。例如,在电子游戏里,RL 算法可以控制角色的移动来争取更高的分数;在机器人领域,它能控制机器人的动作以完成特定任务;在金融领域,可控制虚拟交易员买卖资产以实现利润最大化。
然而,强化学习也面临一些挑战:
- 奖励稀疏 :以国际象棋为例,只有在游戏结束时才能得到反馈(胜得 +1 分、负得 -1 分、平局得 0 分,其他时刻得 0 分),这意味着要完成一整局游戏才能获得奖励。
- 时间信用分配问题 :奖励与导致它的动作在时间上可能存在偏移。比如,在胜利前三十步的某个关键动作可能带来了决定性优势,但我们需要将奖励与这个关键动作关联起来。
- 环境的随机性 :对手在相同情况下的行动可能不同,所以很难判断一个动作是真的好,还是仅仅靠运气。
- 探索 - 利用权衡 :智能体需要在探索环境(尝试新的开局动作)和利用已有知识(坚持之前成功的开局)之间取得平衡。
虽然强化学习不一定需要深度学习,但在实际应用中,最先进的系统通常会使用深度网络。深度网络可以对环境(如游戏画面、机器人传感器数据、金融时间序列或棋盘状态)进行编码,并将其直接或间接地映射到下一个动作。
2. 马尔可夫决策过程、回报与策略
强化学习的目标是将对环境的观察映射到动作上,以最大化与所获奖励相关的数值量。在最常见的情况下,我们会学习一种策略
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



