- 博客(3)
- 收藏
- 关注
原创 强化学习DDQN与DQN深度解析
而经验回放池中存储着大量的各个状态、各个动作,并且Q网络和目标网络是取一批数据训练,而不是一条,从一开始代理所采取的所有行动和观察都是存储的,然后随机从这个经验回放池中选择大量的样本,这包含足够的多样性,从旧的和更新的样本,让网络学习的权重,概括到所有的场景。经验回放我理解为一个池子,这个池子中存放着大量与环境交互后的数据,当网络开始训练时,从池子中取一批数据,训练后更新了数据又放回池子,过段时间又取出、放回...这些数据也即与环境交互并网络训练后的经验,所以称经验回放。3、两个网络输出的结果分别是什么?
2024-08-31 15:51:50
2602
1
原创 凸与非凸优化问题
强化学习能解决非凸优化问题的原因主要是强化学习在训练过程中,通过与环境的交互和试错,逐步学习到在给定环境下的最优策略,而这个最优策略往往可以泛化到一些未经历过的状态和动作,从而在一定程度上解决非凸优化问题。非凸(non-convex)类优化问题在很多论文中遇到,一般也是NP-hard问题,一直不太明白,不太理解,故参考借鉴网上各位大佬帖子以及自己理解,得出以下内容,分享给大家。2)还有的问题不是凸优化问题,但是凸优化问题同样可以在求解该问题中发挥重要的左右。出现了两个概念:凸集、凸函数,分别介绍一下。
2024-03-10 22:01:01
3990
1
原创 overleaf报错记录
此外注意图片路径尽量选择相对路径,将本地图片上传到你的项目里,代码里直接写图片名字就好。最近开始在overleaf上写论文,仅此记录会遇到的问题。解决方法:在公式首末端加上$ ,表明这段是数学公式。原因:软件不知道插入图的边界。所以没法确定图的大小。解决方法:左上角 菜单-设置-pdfLaTex。原因在于_或^可能被识别成了文本内容。看csdn好几年了,头次自己写。用的是网页版overleaf。此外尽量避免中文字符。
2023-07-12 10:00:38
7198
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅