青稞社区主页:https://qingkeai.online/
原文:https://mp.weixin.qq.com/s/MPuc8kjwAjPYGSdyHrkbqg

论文:Group Sequence Policy Optimization
链接:https://www.arxiv.org/pdf/2507.18071
分享嘉宾

郑楚杰,通义千问研究员,Qwen3、QwQ 系列开源模型核心贡献者。2025年博士毕业于清华大学,师从黄民烈教授。曾获2025年WAIC云帆奖·明日之星、ACL 2025 SAC Award。研究方向为大模型推理、对齐与强化学习。在ICLR、ICML、ACL等国际会议发表论文10余篇,谷歌学术引用量5300余次,长期担任ACL、EMNLP、NAACL等会议领域主席。
147

被折叠的 条评论
为什么被折叠?



