文章主要内容总结
本文提出了一种名为Absolute Zero的强化学习新范式,旨在解决现有强化学习方法依赖人工标注数据的问题。核心是让模型通过自我博弈(self-play)自主生成任务并解决,无需任何外部数据。具体通过以下方面展开:
-
核心框架:Absolute Zero推理器(AZR)
- 模型同时担任**任务提议者(proposer)和问题解决者(solver)**双重角色。
- 提议者生成三种类型的编程任务(演绎、归纳、溯因),对应不同推理模式,并通过代码执行器验证任务有效性和答案正确性,提供可验证的奖励信号。
- 采用**任务相对REINFORCE++(TRR++)**算法,针对不同任务类型和角色分别计算基线,提升多任务学习稳定性。
-
关键实验结果
- 性能超越现有方法