李宏毅2025《机器学习》第八讲 - AI想太多怎么办?

摘要:
继深度思考模型展示出强大的推理(Reasoning)能力后,一个新的问题浮出水面:这些模型似乎“想得太多”了。本文基于李宏毅教授的最新课程,深入探讨了如何解决大型语言模型(LLM)推理过程冗长、效率低下的问题。文章首先通过严谨的实验数据,打破了“推理越长,结果越好”的普遍迷思,并确立了“在有限资源下追求最佳表现”的核心工程准则。随后,文章沿着上期课程提出的四大技术流派,系统性地探讨了控制和优化推理长度的解决方案,包括“草稿链”提示法、学习最短正确路径、内化推理过程,以及将“效率”作为核心指标引入强化学习的激励机制。最后,文章以“长颈鹿的演化”为喻,深刻警示了在AI训练中过度优化单一指标可能带来的负面影响。

1. 推理的悖论:越长越好,还是过犹不及?

上期课程我们探讨了如何让LLM具备深度思考的能力,但这种能力似乎正走向一个极端。许多先进的推理模型,在面对简单问题时,本可一语中的,却偏要“左思右想”,耗费大量计算资源,生成数千甚至上万词的冗长分析。这引出了一个核心问题:更长的推理,真的能带来更好的结果吗?

1.1 打破“长度=质量”的迷思

许多初步研究似乎表明,推理长度与正确率之间存在“负相关”——即推理越长,答错的概率反而越高。然而,这种观察结论可能存在谬误。李宏毅教授指出,这种相关性并不能直接推导出因果关系。一个更合理的解释是,存在一个共同的潜在因素:问题的难度

  • 高难度问题 → 模型需要更长的推理来尝试解决 →
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值