强化学习与机器学习实验设计
1. 强化学习基础
在多层感知机的情况下,更新所有层的权重时,只有最后一项会有所不同。而在Sarsa(λ)算法中,资格迹e是三维的,分别为对应权重w1的e1、对应w2的e2和对应w0的e3。资格迹的更新公式如下:
- (e_{t}^{1} = \gamma\lambda e_{t - 1}^{1} + s_{t})
- (e_{t}^{2} = \gamma\lambda e_{t - 1}^{2} + a_{t})
- (e_{t}^{3} = \gamma\lambda e_{t - 1}^{3})
权重的更新则使用资格迹,公式为:
- (\Delta w_{1} = \eta [r_{t + 1} + \gamma Q(s_{t + 1}, a_{t + 1}) - Q(s_{t}, a_{t})] * e_{t}^{1})
- (\Delta w_{2} = \eta [r_{t + 1} + \gamma Q(s_{t + 1}, a_{t + 1}) - Q(s_{t}, a_{t})] * e_{t}^{2})
- (\Delta w_{3} = \eta [r_{t + 1} + \gamma Q(s_{t + 1}, a_{t + 1}) - Q(s_{t}, a_{t})] * e_{t}^{3})
这里还提出了几个相关问题:
- 给出一个可以用部分可观测马尔可夫决策过程(POMDP)建模的强化学习应用示例,并定义其状态、动作、观测和奖励。
- 在老虎示例中,证明当传感器更可靠时,需要再次进行感知的范围会减小。
- 使用以下奖励矩阵重新处理老虎
超级会员免费看
订阅专栏 解锁全文
5万+

被折叠的 条评论
为什么被折叠?



