对DQN强化学习的完整笔记(一)

本文介绍了强化学习的基本概念,包括智能体、环境、状态、动作、策略、奖励、状态转移动态和回报,强调了它们在决策过程中的作用,并以仓库存储智能体为例解释随机和确定策略的区别。此外,文章还预告了后续将通过实例深入解析价值函数。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

首先要说的话

强化学习是用来干什么的:
如果要使一个火柴人学会自己走路,要怎么做?模仿人是个好主意。那么大家思考一下,人是怎么走路的呢?或者说人是怎么平衡的。感受角度、重心、速度等然后调整自身平衡的对吗。那么好,人有大脑,可以用来自我调整。火柴人就需要一个强化学习(Reinforcement Learning,RL)来调整。这就是强化学习。强化学习的一个典型用处就是决策。

以下所有的加粗字体都是一些执行时的随机值变量

Agent智能体:

是在环境中做出行为的主体,也就是DQN输出结果的直接获取者

Environment环境:

顾名思义就是智能体所在的环境。我们可以通过检查模型是否包含转换动态来区分是基于模型还是无模型。

State,action:

状态是环境在t时刻的样子。它与观察是完全不同的,正如你可以想象的那样,你可能会在这个状态下忽略一些东西。然而,在RL问题中,我们通常假设状态等于观察值。

Policy:

这个策略函数是一个概率密度函数
在这里插入图片描述
假设一个状态S=s,智能体随机或确定地做出行为A=a

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值