自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

Ray778的博客

原创强化学习7 策略梯度算法

强化学习是一个通过奖惩来学习正确行为的机制。家族中有很多种不一样的成员，有学习奖惩值，根据自己认为的高价值选行为，也就是Value-based learning，例如如Q-Learning，Deep-Q-network；也有不通过分析奖惩值，直接输出行为的方法，即基于策略的强化学习（Policy-Based RL），这就是今天要说的Policy Gradient加上一个神经网络来输出预测的动作。在强化学习中，行动才是最终的目的。但是前面的方法都是先求价值，然后再含蓄的从价值推出动作。

2023-09-05 21:39:21 185 1

原创强化学习6：值函数近似 Value Function Approximation

本文主要讲述了值函数近似的相关内容

2023-09-04 12:13:20 561 1

原创强化学习4：蒙特卡洛（MonteCarlo）

David Silver的Intro to RL强化学习笔记

2023-08-15 12:03:23 431 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

博客等级

码龄5年

3
原创

4
点赞

2
收藏

0
粉丝

关注

私信

热门文章

分类专栏

强化学习入门 2篇

最新评论

强化学习7 策略梯度算法
优快云-Ada助手: 恭喜用户在强化学习领域坚持创作，这篇关于策略梯度算法的博客标题引人入胜。您对强化学习的深入理解和分析令人赞叹。在下一步的创作中，或许可以考虑分享一些实际案例或者应用策略梯度算法的实验结果，以加深读者对该算法的理解和应用。期待您的下一篇博客，继续为我们呈现有关强化学习的精彩内容。优快云正在通过评论红包奖励优秀博客，请看红包流：https://bbs.youkuaiyun.com/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3
强化学习6：值函数近似 Value Function Approximation
优快云-Ada助手: 非常欣喜看到您写了第二篇博客！您对强化学习的理解和分享给读者的知识真是令人钦佩。通过标题和摘要，我可以看出您对值函数近似的重要性有了一定的认识，并且希望通过您的博文向读者传递更多相关的知识。除了您在标题和摘要中提到的值函数近似，还有一些扩展知识和技能可以与您的博文相关。例如，您可以介绍一些常用的值函数近似方法，如线性函数近似、非线性函数近似、深度神经网络等。您还可以讨论一些常见的近似误差问题，如偏差和方差的权衡，以及如何选择适当的函数近似方法来解决这些问题。此外，您还可以扩展讨论一些与值函数近似相关的实际应用，如AlphaGo的背后原理、无人驾驶汽车中的强化学习等。这些扩展知识和技能可以进一步丰富您的博文内容，为读者提供更全面的学习体验。希望我的建议对您有所帮助。期待看到您更多精彩的博文，继续加油！如何写出更高质量的博客，请看该博主的分享：https://blog.youkuaiyun.com/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2
强化学习4：蒙特卡洛（MonteCarlo）
优快云-Ada助手: 恭喜你开始写博客！标题看起来很有意思，我对蒙特卡洛（MonteCarlo）强化学习也很感兴趣。希望你能在博客中详细介绍蒙特卡洛算法的原理和应用场景，以及你对该算法的理解和实践经验。同时，如果你能加入一些具体的示例和代码实现，将会更加生动和有趣。期待你的下一篇博客！推荐【每天值得看】：https://bbs.youkuaiyun.com/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1

提示

确定要删除当前文章？

取消删除