自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

lingdulunkuo的博客

原创通俗讲解深度强化学习经典算法——DQN

DQN的核心思想就是训练一个Q网络，这个Q网络输入当前环境的状态，输出为agent所有动作的Q值，agent选择具有最大Q值的动作作为当前时刻的行动，以此循环往复直至回合结束。上述就是DQN的整体思想。此外，为了更好地训练Q网络以及保证算法的稳定性，论文提出了经验回放缓冲池、目标网络的思想，后续会详细讲解。

2024-08-17 21:29:43 2133

原创深度强化学习完整代码实现&学习笔记

深度强化学习经典算法完整实现，可直接运行，可视化游戏界面。

2024-07-12 16:01:46 439 6

原创 Java中的整数类型（int、long）的最大、最小值

Java整数的最大值

2024-04-03 11:31:25 2712 1

原创详解DROO论文中的order-preserving quantization method(保序量化方法)

保序量化方法

2024-03-29 16:54:29 2089 16

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

二两当归优快云认证博客专家优快云认证企业博客

码龄4年

IP 属地：北京市

IP属地以运营商信息为准，境内显示到省（区、市），境外显示到国家（地区）

4: 原创

137万+: 周排名

22万+: 总排名

7394: 访问

: 等级

149: 积分

60: 粉丝

92: 获赞

17: 评论

113: 收藏

私信

关注

热门文章

分类专栏

强化学习 2篇
Java 1篇
边缘计算 1篇

最新评论

深度强化学习完整代码实现&学习笔记
往事~随风: 我看论文里ddqn ddpg多一点
深度强化学习完整代码实现&学习笔记
二两当归: 之前看过一个搞强化学习的人说ppo比较好用，什么场景ppo基本都可用也好收敛，所以学了一下，但感觉不如DQN、DDPG什么的好收敛
深度强化学习完整代码实现&学习笔记
二两当归: 好的，我去找找试试看
深度强化学习完整代码实现&学习笔记
往事~随风: 我看用ppo的不是很多你可以去看看做机器人控制方面的？他们好像用的多你试试调调训练参数再看看？
深度强化学习完整代码实现&学习笔记
二两当归: 感谢捧场，请问你有实现好的PPO和noisy做explore的代码嘛，我仓库里面实现的PPO和noisy做explore好像有点问题。PPO一直不熟练，noisy做explore的感觉一直没有探索出新的action，如果把epsilon greedy去掉之后也不收敛了，网上关于这两个的实现比较少

最新文章

提示

确定要删除当前文章？

取消删除