强化学习《基于策略 - Policy Grident》

最新推荐文章于 2025-11-13 10:37:01 发布

原创

最新推荐文章于 2025-11-13 10:37:01 发布 · 1.1k 阅读

7 ·

CC 4.0 BY-SA版权

文章标签：

#Policy Grident

本文介绍了强化学习的基本概念，包括Agent如何通过观察环境状态并采取行动来最大化奖励。特别地，文章聚焦于基于策略的方法，探讨了如何训练策略函数π以使Agent能够做出最佳决策，并概述了评估策略函数的方法。

之前学习了机器学习，深度学习，NLP，都是均有涉猎，也不是贪心不足，而是保持着对新奇领域的好奇心，不断去学习，看看是啥样子的，
最近看了李宏毅老师的教学视频，感觉哈，要学习的东西好多，AI领域太广泛了。
不过，千里之行始于足下，Bettr late than never。
希望能得出其中的一些精髓性的东西来，跨领域会带俩不一样的思路哦。

一：强化学习（Reinforcement Learning）
在这里插入图片描述

简单的一句话就是，我们有一个Actor π，会从环境Environment观测到状态State（s），采取一定的措施 Action 比如a，在此同时，还会得到一定的奖励Reward比如 r。
Actor的目标就是去学习采取怎么的措施去最大化reward。

常见的场景就是，游戏博弈，棋类博弈等。让机器去学习下棋，打电玩游戏，某项特定任务等等。还运用在自动驾驶，飞行器，文本生成领域。

举个例子，打游戏，王者荣耀吧，让机器看到的是像素画面，产生的Action则是正确的动作，如移动上下左右，发一二三招，回城等。每一个action就是a_T，每一步骤获得的reward是r_T。等一轮结束后，这一轮叫做一个回合，也就是一个episode。

总的来说呢，我们有三种模型的强化学习，
一个是Policy-based，基于策略的，学习一个操作者Actor。也是本文要学习的。
一个是Value-based，基于价值的，学习一个评价者Critic。
一个是Model-based，基于模型的。
当然还有Policy-Value-based的混合型后面也会学习到。

二：基于策略的Policy Grident

好，有了上面的基础概念呢，我们就开始基于策略的RL学习之旅。
我们说了，基于策略的学习就是为了学习出一个好的Actor，让Actor根据环境State做出最好的Action，什么是最好的呢，就是得