51、强化学习与机器学习实验设计

强化学习与机器学习实验设计

1. 强化学习基础

在多层感知机的情况下,更新所有层的权重时,只有最后一项会有所不同。而在Sarsa(λ)算法中,资格迹e是三维的,分别为对应权重w1的e1、对应w2的e2和对应w0的e3。资格迹的更新公式如下:
- (e_{t}^{1} = \gamma\lambda e_{t - 1}^{1} + s_{t})
- (e_{t}^{2} = \gamma\lambda e_{t - 1}^{2} + a_{t})
- (e_{t}^{3} = \gamma\lambda e_{t - 1}^{3})

权重的更新则使用资格迹,公式为:
- (\Delta w_{1} = \eta [r_{t + 1} + \gamma Q(s_{t + 1}, a_{t + 1}) - Q(s_{t}, a_{t})] * e_{t}^{1})
- (\Delta w_{2} = \eta [r_{t + 1} + \gamma Q(s_{t + 1}, a_{t + 1}) - Q(s_{t}, a_{t})] * e_{t}^{2})
- (\Delta w_{3} = \eta [r_{t + 1} + \gamma Q(s_{t + 1}, a_{t + 1}) - Q(s_{t}, a_{t})] * e_{t}^{3})

这里还提出了几个相关问题:
- 给出一个可以用部分可观测马尔可夫决策过程(POMDP)建模的强化学习应用示例,并定义其状态、动作、观测和奖励。
- 在老虎示例中,证明当传感器更可靠时,需要再次进行感知的范围会减小。
- 使用以下奖励矩阵重新处理老虎

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值