【读邹伟等著强化学习】第1章~第7章

博客内容涉及矩阵运算的准确性问题,指出在第二章p21处的矩阵运算可能缺少对a的求和,仅适用于确定性策略。第三章p29提到了策略评估的收敛性论证不足,并在多处发现符号放置和括号缺失的问题。作者对细节的严谨态度贯穿全文。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

ISBN: 9787302538295

第二章
p21
这个矩阵运算与p18下方的值函数自迭代公式相比,似乎少了对于a的求和号。因此我认为只有在确定性策略下这个式子才成立。

第三章
p29
策略评估中,书中说由于其他未知量已知,因此该方法的反复迭代终将收敛。这个说服力不足够。
p29
倒数第二行,类似p21的问题。另外sigma号固然可以如此安放,但是没有限定求和范围的括号。
p30
倒数第五行缺括号
p37
\pi * 那行缺括号

第四章
p53
在这里插入图片描述
p53
在这里插入图片描述p59
在这里插入图片描述
第六章
p113
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值