- 博客(2)
- 收藏
- 关注
原创 《深度强化学习》 第三章-强化学习基本概念-读书笔记
智能体基于当前状态所做出的决策,动作的选取可以是确定性的、也可以是随机性的(多数情况下为随机性的),即给定一个概率分布(一个加和为1的概率向量),智能体按照这个概率分布选取一个动作。:环境中存在随机性,比如,在玛丽欧游戏中你可以控制玛丽欧怎么移动,但敌人怎么移动则无法确定,这就是下一刻状态不确定的缘由。:如何根据观测到的状态做出决策,即如何从动作空间中选取一个动作。,即给定当前状态条件下采取各个动作的概率,也就是加和为1的向量。:越久远的未来的回报越不重要,所以应该随时间乘上相应的折扣率。
2023-12-03 16:22:18
887
1
原创 《深度强化学习》第二章-蒙特卡洛方法-读书笔记
输出:3.13528 输出:100个点近似的圆周率: 3.08 10000个点近似的圆周率: 3.1352 1000000个点近似的圆周率: 3.141 输出:0.59632假设用期望计算∫03x23dx\int_{0}^{3}x^\frac{2}{3}dx∫03x32dx 输出:tensor([1.2374]) 输出:tensor([17.3412]) 输出:tensor([17.3020])
2023-11-19 14:55:11
86
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人