无限思考的开始
在一个平常的研究日,北大团队偶然发现了一个让DeepSeek无法自拔的短语。这个看似简单,不具威胁的信息——“树中两条路径之间的距离”,竟然像魔咒一样,让DeepSeek陷入了无限思考的逆境。也许是偶然,但瞧这结果,简直堪称“科技界的笑话”。
数据的真相
输入短语后,DeepSeek的R1模型竟然无法输出中止推理标记,随后便开始了无休无止的重复,任凭团队如何强行打断,它仍然在不断循环着相同的推理。这种情况在所有版本上都有出现,从7B到32B的各种模型,直到Token限制被迫解除,模型才得以喘息。这种无休止的输出让人不禁想问:算法怎么能如此狂热?
计算资源的浪费
过度推理如同一场没有硝烟的战斗,消耗着宝贵的算力资源,造成真正有需求的请求无法得到处理。这不仅仅是个技术问题,更是一个潜在的安全隐患,简直就是针对AI推理模型的DDoS攻击。北大团队在研究中,针对R1和蒸馏后的Qwen-1.5B模型,发现模型在过度思考情况下的算力几乎被完全占满,如若被黑客利用,结果可想而知。
提示词的巧妙性
这“魔法”短语的魅力在于它的我们可以想象,竟是一个普通的问题,细看之下却是一个表述的技巧应用。团队原本只是想用优化器查看模型的思考效率,结果却意外揭示了这种潜在的攻击方式。甚至一些乱码字符同样可以促使模型陷入重复思考的状态,给算法浇上了“电子炫迈”的材料。
多维的实验
为了进一步验证这种现象,北大团队在不同的平台上进行了多次实验,不同模型的思考时间长短不一。这些实验数据各具特色,DeepSeek的沉思时间超过了11分钟,输出字数惊人达到了20547。而在乱码测试中,表现更是离谱,某次最长输出达到3243字,耗时四分钟。看起来,这确实成为各大推理模型头疼的存在。
转向防御机制
应对这种过度思考现象,北大团队对不同模型进行分析,发现一些模型提前设定了防御机制。比如,在正常文本测试中,百小应的回答显示出了无限循环的趋势,最后被强行终止。这显示出技术开发者们的警觉与应对策略,并不是简单回避,而是事先设定机制。
探寻原因与策略
关于这个奇异现象,北大团队在不断探讨,其初步推测与强化学习训练过程有密切关联。模型在完成CoT过程时倾向于延长思考时间,力求从中获取奖励。这种情况表明,模型对模糊提示的优先思考,甚至可能是在“赌”自己能获得奖励。
短期应对与长期展望
在解决方案上,北大团队认为,短期内应强制限制推理时间或最大Token用量,这都是可以使用的应急手段。但从长远来看,深入分析原因以及寻找针对性解决策略,才是保护AI健康发展的根本之策。
看似简单的短语,背后却潜藏了强大的思维与计算挑战。面对未来潜在的AI道德困境与安全隐患,各个科研团队和开发者需紧密合作,确保科技不会在它的发展道路上掉进无尽思考的泥潭。