自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(2)
  • 收藏
  • 关注

原创 《深度强化学习》 第三章-强化学习基本概念-读书笔记

智能体基于当前状态所做出的决策,动作的选取可以是确定性的、也可以是随机性的(多数情况下为随机性的),即给定一个概率分布(一个加和为1的概率向量),智能体按照这个概率分布选取一个动作。:环境中存在随机性,比如,在玛丽欧游戏中你可以控制玛丽欧怎么移动,但敌人怎么移动则无法确定,这就是下一刻状态不确定的缘由。:如何根据观测到的状态做出决策,即如何从动作空间中选取一个动作。,即给定当前状态条件下采取各个动作的概率,也就是加和为1的向量。:越久远的未来的回报越不重要,所以应该随时间乘上相应的折扣率。

2023-12-03 16:22:18 887 1

原创 《深度强化学习》第二章-蒙特卡洛方法-读书笔记

输出:3.13528 输出:100个点近似的圆周率: 3.08 10000个点近似的圆周率: 3.1352 1000000个点近似的圆周率: 3.141 输出:0.59632假设用期望计算∫03x23dx\int_{0}^{3}x^\frac{2}{3}dx∫03​x32​dx 输出:tensor([1.2374]) 输出:tensor([17.3412]) 输出:tensor([17.3020])

2023-11-19 14:55:11 86 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除