周四晚8点，和通义千问郑楚杰博士，一起聊聊Qwen3背后的大规模强化学习训练算法GSPO

原创已于 2025-08-04 12:32:52 修改 · 305 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #语言模型

于 2025-08-04 12:12:28 首次发布

青稞Talk 专栏收录该内容

80 篇文章

订阅专栏

部署运行你感兴趣的模型镜像

青稞社区主页：https://qingkeai.online/
原文：https://mp.weixin.qq.com/s/MPuc8kjwAjPYGSdyHrkbqg

论文：Group Sequence Policy Optimization
链接：https://www.arxiv.org/pdf/2507.18071

分享嘉宾

数据来源：https://dinq.io/scholar?user=55zBNgUAAAAJ

郑楚杰，通义千问研究员，Qwen3、QwQ 系列开源模型核心贡献者。2025年博士毕业于清华大学，师从黄民烈教授。曾获2025年WAIC云帆奖·明日之星、ACL 2025 SAC Award。研究方向为大模型推理、对齐与强化学习。在ICLR、ICML、ACL等国际会议发表论文10余篇，谷歌学术引用量5300余次，长期担任ACL、EMNLP、NAACL等会议领域主席。

您可能感兴趣的与本文相关的镜像