文章目录
- 总结
-
- **问题1:贝尔曼方程递归优化策略,是用来求解最优动作奖励的么?**
- **问题2:贝尔曼方程递归优化策略,是迭代出当前时间步的最优动作么?通过当前状态,多次比较不同的动作而比较出一个整体奖励最优的动作么?**
- **问题3:贝尔曼方程递归优化策略和树搜索是否类似?都是要遍历所有选项么?**
- **问题4:贝尔曼方程递归优化策略,长期奖励计算的部分是一个估计值么?状态转移概率是一个可变的加权值,通过调整状态转移概率让估计值尽可能接近真实值么?**
- **问题5:在计算机通过多次训练MDP模型,目的是找到一个状态转移概率组,使模型每次决策都是最优解么?**
- **问题6:状态转移概率组和策略的区别是什么?**
- **问题7:策略是规则和目标,而状态转移概率组是契合规则的动作选择结果,对么?**
- **问题8:环境的状态转移概率是不变的,而智能体的决策会对状态转移概率进行加权值,通过加权值的不断迭代,使决策选择的动作越来越趋近于最优值,对么?**
- **问题9:值函数是状态转移概率的权重值么?**
总结
问题1:贝尔曼方程递归优化策略,是用来求解最优动作奖励的么?
- 回答:是的,贝尔曼方程的目标是通过递归计算值函数 V ( s ) V(s) V(s) 或动作值函数 Q ( s , a ) Q(s, a) Q(s,a),最终找到每个状态下的最优动作以及对应的长期累积奖励。
问题2:贝尔曼方程递归优化策略,是迭代出当前时间步的最优动作么?通过当前状态,多次比较不同的动作而比较出一个整体奖励最优的动作么?
- 回答:是的,贝尔曼方程通过对当前状态下所有动作的价值 Q ( s , a ) Q(s, a)