SimBa:实现深度强化学习参数scaling up

收到求救信号

于 2025-07-02 21:26:08 发布

阅读量250

点赞数 6

CC 4.0 BY-SA版权

分类专栏： ICLR2025 强化学习文章标签：深度学习人工智能机器学习算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/wdnmdwsmsa/article/details/149078441

强化学习同时被 2 个专栏收录

99 篇文章

订阅专栏

5 篇文章

订阅专栏

ICLR 2025 spotlight
近年来，计算机视觉 (CV) 和自然语言处理 (NLP) 领域的进展主要归功于网络参数的扩展。尽管传统理论认为更大的网络容易过拟合，但这些大型网络通过整合能够诱导简洁性偏差的组件来避免过拟合，从而引导模型找到简单且具有泛化能力的解决方案。本文便是针对深度强化学习领域网络结构（actor与critic）提出一种设计方案SimBa，提高采样效率的同时实现网络参数上的scaling up。SimBa 包含三个组成部分：(i) 一个使用 running statistics 实现输入标准化的 observation normalization 层，(ii) 一个提供从输入到输出的线性路径的 residual feedforward block，以及 (iii) 一个用于控制特征幅度的 layer normalization。
在这里插入图片描述
从实验结果看出Simba有效性，以及对比传统MLP的表征能力大幅度提升

``

``
对比其他表征网络结构性能优异
在这里插入图片描述
网络结构参数上以及replay ratio（样本用于梯度更新次数）的scaling，证明结构可以防止overfitting

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。