【DAPO算法原理详解：一个开源的LLM大规模强化学习系统】超越 DeepSeek GRPO的关键RL算法，字节、清华AIR开源DAPO

AI天才研究院

已于 2025-03-27 18:42:39 修改

阅读量246

点赞数

CC 4.0 BY-SA版权

分类专栏：计算 AI人工智能与大数据文章标签：算法 ai 人工智能

于 2025-03-27 17:58:15 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/universsky2015/article/details/146566434

AI人工智能与大数据同时被 2 个专栏收录

该专栏为热销专栏榜第8名

39651 篇文章 ¥69.90 ¥99.00

订阅专栏

超级会员免费看

13763 篇文章 ¥39.90 ¥99.00

订阅专栏

超级会员免费看

DAPO：Decouple Clip and Dynamic sAmpling Policy Optimization ，解耦剪辑和动态采样策略优化

Inference scaling empowers LLMs with unprecedented reasoning ability, with reinforcement learning as the core technique to elicit complex reasoning.

推理扩展法则赋予了LLMs前所未有的推理能力，强化学习作为核心技术来激发复杂推理。

关键词：

Test-time scaling，

Clip-Higher, which promotes the diversity of the system and avoids entropy collapse;

裁剪高概率token，促进系统多样性并避免熵坍缩；

Dynamic Sampling, which improves training efficiency and stability;

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

AI天才研究院 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。