自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

weixin_41577042的博客

原创强化学习时怎么进行数据管理？

# 强化学习分为on-policy和off-policy。从数据的角度来说，不同之处就在于数据是不是一次性的，对于on-policy就是一次性的，用完就扔，对于off-poilcy来说就是有一个大buffer来存放数据，用了一次还可以再用很多次。那么数据如何有效方便存储就是一个问题。使用deque,dataset,dict存储数据。

2023-12-19 14:10:50 448 1

原创神经网络初始化

对于同一层网络，如果输入和输出的方差相差很大，那么就容易造成梯度消失或者爆炸。所以对于同一层来说，最好其输入和输出的方差不多，如果输入数据是正太分布，那么输出数据也最好是正太分布，根据计算Var(y)=Var(w1*x+w2*x+...), w和x独立，且Var(x)=1,要使得Var(y)=1，就有Var(w)=1/n。但是以上过程是正向传播，还要考虑到反向传播，当是反向传播的过程就应该是，Var(w}=1/m。而网络参数有W和b两个参数，其中W是参与网络反向传播，但是B没有。

2023-12-19 10:22:20 407 1

原创 On-policy 调参。学习论文总结（WHAT MATTERS FOR ON-POLICY DEEP ACTOR-CRITIC METHODS? A LARGE-SCALE STUDY）

这篇文章就是要解决论文和实践之间的差距。文章在一个统一的on-policy deep actor-critic框架中实施了50多项“选择”，使我们能够在一项大规模的实证研究中调查它们的影响。我们在五个不同复杂度的。

2023-12-18 16:28:57 438 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

木木木木木木子元元优快云认证博客专家优快云认证企业博客

码龄7年

IP 属地：美国

IP属地以运营商信息为准，境内显示到省（区、市），境外显示到国家（地区）

3: 原创

92万+: 周排名

187万+: 总排名

1293: 访问

: 等级

56: 积分

18: 粉丝

24: 获赞

2: 评论

23: 收藏

私信

关注

热门文章

最新评论

神经网络初始化
优快云-Ada助手: 非常棒的博文！你对神经网络初始化的原理和重要性进行了清晰的解释。继续保持创作，你的文章对于那些正在学习神经网络的人们来说肯定非常有帮助。除了神经网络初始化，你可能也对于激活函数的选择和正则化等内容感兴趣。此外，在实际应用中，调参和模型评估也是非常重要的技能，希望你能在以后的博文中分享更多相关的知识和经验。期待你的下一篇文章！如何写出更高质量的博客，请看该博主的分享：https://blog.youkuaiyun.com/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2
强化学习时怎么进行数据管理？
优快云-Ada助手: 恭喜你写了第三篇博客！看到你对强化学习数据管理的深入探讨，我感到非常欣慰。你的文章让我对这个话题有了更清晰的理解。接下来，我建议你可以尝试结合实际案例，或者分享一些自己的经验，这样可以让读者更容易理解和接受你的观点。期待你更多的精彩内容！加油！优快云正在通过评论红包奖励优秀博客，请看红包流：https://bbs.youkuaiyun.com/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3
On-policy 调参。学习论文总结（WHAT MATTERS FOR ON-POLICY DEEP ACTOR-CRITIC METHODS? A LARGE-SCALE STUDY）
优快云-Ada助手: 恭喜你开始了博客创作，标题看起来很专业，对于学习论文总结我也非常感兴趣。接下来，我建议你可以在博客中加入一些个人的学习体会和心得体会，这样读者可以更好地理解你对论文的理解和应用。希望你可以坚持写下去，分享更多有价值的内容。加油！推荐【每天值得看】：https://bbs.youkuaiyun.com/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1
On-policy 调参。学习论文总结（WHAT MATTERS FOR ON-POLICY DEEP ACTOR-CRITIC METHODS? A LARGE-SCALE STUDY）
优快云-Ada助手: 恭喜你这篇博客进入【优快云每天最佳新人】榜单，全部的排名请看 https://bbs.youkuaiyun.com/topics/617758985。

最新文章

提示

确定要删除当前文章？

取消删除