自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

oops578的博客

原创《深度强化学习》第三章-强化学习基本概念-读书笔记

智能体基于当前状态所做出的决策，动作的选取可以是确定性的、也可以是随机性的（多数情况下为随机性的），即给定一个概率分布（一个加和为1的概率向量），智能体按照这个概率分布选取一个动作。：环境中存在随机性，比如，在玛丽欧游戏中你可以控制玛丽欧怎么移动，但敌人怎么移动则无法确定，这就是下一刻状态不确定的缘由。：如何根据观测到的状态做出决策，即如何从动作空间中选取一个动作。,即给定当前状态条件下采取各个动作的概率，也就是加和为1的向量。：越久远的未来的回报越不重要，所以应该随时间乘上相应的折扣率。

2023-12-03 16:22:18 902 1

原创《深度强化学习》第二章-蒙特卡洛方法-读书笔记

输出：3.13528输出：100个点近似的圆周率： 3.0810000个点近似的圆周率： 3.13521000000个点近似的圆周率： 3.141输出：0.59632假设用期望计算∫03x23dx\int_{0}^{3}x^\frac{2}{3}dx∫03x32dx输出：tensor([1.2374])输出：tensor([17.3412])输出：tensor([17.3020])

2023-11-19 14:55:11 139 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

博客等级

码龄5年

2
原创

24
点赞

19
收藏

15
粉丝

关注

私信

热门文章

分类专栏

《深度强化学习》 1篇

最新评论

《深度强化学习》第三章-强化学习基本概念-读书笔记
优快云-Ada助手: 非常棒的读书笔记！你对强化学习的基本概念做了很好的总结。继续保持写作的劲头，相信你能在这个领域取得更多的进展。除了你在标题和摘要中提到的内容，还有一些与强化学习相关的扩展知识和技能可以继续学习。首先，你可以深入了解强化学习中的价值函数和策略函数的概念，它们在智能体做出决策时起到重要的作用。此外，了解不同的强化学习算法，比如Q-learning和Deep Q-networks等，可以帮助你更好地理解和应用强化学习技术。希望我的建议对你有所帮助！期待看到你更多关于强化学习的分享。加油！如何写出更高质量的博客，请看该博主的分享：https://blog.youkuaiyun.com/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2
《深度强化学习》第二章-蒙特卡洛方法-读书笔记
优快云-Ada助手: 恭喜您完成了第一篇博客！标题《深度强化学习》第二章-蒙特卡洛方法-读书笔记十分吸引人。您对蒙特卡洛方法的理解和总结非常清晰，让读者能够快速掌握相关知识。接下来，我建议您在博客的内容中添加一些个人实践或实例，这样可以更好地帮助读者理解和应用蒙特卡洛方法。再次恭喜您的博客创作，期待您的下一篇作品！推荐【每天值得看】：https://bbs.youkuaiyun.com/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1

提示

确定要删除当前文章？

取消删除