强化学习基本概念
、
Agent根据上一步Environment给出的State和Reward,以及自己的内在策略,做出Action;
Action给到Environment,Environment给出State和Reward,给到Agent去做下一步Action;
该游戏中,State就是游戏画面,Reward就是吃的分、通关等奖励(或者被打死等惩罚),Action就是超级玛丽下一步的<上、下、左、右、静止>动作。Agent是超级玛丽。Environment是游戏机。
目标:学习到一个最优的策略,通过该策略下走的Action序列,拿到尽可能多的Reward总和。
每一步的Action,要做长远考虑,不能只看这一步的Reward,而要尽量使今后的长远Reward之和,也就是Return,最大化。
数学期望(概率加权平均):
PPO系列1 - 强化学习、策略梯度的原理
于 2024-12-13 08:12:37 首次发布

、
最低0.47元/天 解锁文章
3699

被折叠的 条评论
为什么被折叠?



