- 博客(1)
- 收藏
- 关注
原创 DeepSeek-R1 强化学习
AbstractAIME 2024(Pass@1)Codeforces(Pass@1)MATH-500(Pass@1)MMLU(Pass@1)(Resolved)Contents2Trinh??1,??2, · · · ,????policy?????????????J?????????) = E[??∼???), {???????=1 ∼????????????)]1??∑∑????=1min?????????????????????????, clip??????
2025-02-08 10:27:44
477
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人