张俊林:OpenAI o1原理逆向工程图解
学术头条 2024年09月25日 11:58 北京
内容来自:张俊林 新浪新技术研发负责人
原文链接:https://weibo.com/1064649941/OyA1qFg4q
OpenAI o1的推出称为横空出世不为过,尽管关于Q*、草莓等各种传闻很久了,用了强化学习增强逻辑推理能力这个大方向大家猜的也八九不离十,但是融合LLM和RL来生成Hidden COT,估计很少人能想到这点,而且目前看效果确实挺好的。
OpenAI奔向Close的路上越走越远,你要从o1官宣字面来看,除了“强化学习生成