文章总结 主要内容 本文系统探讨了大型语言模型(LLMs)在推理任务中的推理经济性问题,即在提升推理能力的同时优化计算成本。主要内容包括: 基础分析: 训练后方法:通过监督微调(SFT)和强化学习(RL)塑造模型行为,如过程奖励模型(PRM)和结果奖励模型(ORM)的设计。 测试时策略:并行方法(如自洽性)和顺序方法(如思维链、树搜索)的对比与优化。 挑战分析: 模型行为低效:长度偏差(冗余推理)、欺骗性思维(表面推理但无效)。 测试时资源浪费:算法选择不当(如固定采样策