Policy Evaluation的收敛性是怎么一回事

深度强化学习：理论与实践的碰撞

原创

已于 2023-10-11 20:22:10 修改 · 1.6k 阅读

·

6

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#强化学习 #神经网络 #数学 #机器学习

于 2022-03-31 21:30:39 首次发布

完美的学习算法

昨天和同学在群里讨论DRL里bad case的问题。突然有同学提出观点：“bad case其实并不存在，因为一些算法已经理论证明了具有唯一极值点，再加上一些平滑技巧指导优化器，就必然可以收敛。”

当听到这个观点时，我是一时语塞。因为当前深度学习研究的最大问题就是，花了很大资源训练的千万参数神经网络根本不work，一切都白白浪费。因此才有NAS之类方法尝试根据一些训练初期的动力学性质调整结构，找出合适的超参数，但也是效果平平。如果真有一个这么完美的学习算法，那岂不是任何问题都能解决了？但根据我掌握的常识，这是不可能的。且不说学术界根本就没有这种工作。收敛性显然与网络结构和优化器有关，怎么会在无视这些设置的情况下证明出一个forall的结果呢？

我问他这个问题。他说：“根据证明，任务规模只与收敛速度有关，与是否收敛无关。只要接一个足够强的神经网络，就能……”

其实说到这我大概就知道他说的那个“证明”是怎么回事了。不过为了确认一下，我还是把他说的那篇“证明文章”要了过来，一看发现果然是那种车轱辘证明。

压缩映射与线性收敛速度

这篇“证明文章”是DRL的知名工作soft actor-critic。所谓收敛证明在16页paper里占了一页。其实粗读就可以看出，文章中的“收敛证明”是针对“tabular setting”，即离散形式。对于连续形式，文中指出需要使用神经网络对Policy Evaluation进行逼近，后面就转进到神经网络的实现细节上了。而Policy Evaluation能否收敛就决定了整个算法能否收敛，此处Policy Evaluation使用神经网络逼近，核心就转到了神经网络能否收敛。可神经网络一个任务一个样，它能不能收敛才是最核心的问题，然而文章并没有涉及。事实上，现在地球上没有学者能解答这个问题。

说到这，可能有同学在想：如果能保证离散情况下收敛就已经能解决很多问题了。可是你有没有想过，所谓“离散收敛连续不收敛”，里面的gap在哪里？在连续情形下不成立，离散情况下就会那么完美吗？当然不可能。

根据我的理解，SAC论文中收敛性的证明过程实际与

最低0.47元/天解锁文章

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。