9.11 ＞ 9.8？错的不是模型，是你对它的期待-优快云博客

本文链接：https://blog.youkuaiyun.com/ox180x/article/details/52015319

一、前言

过去几年，大模型（LLM）几乎成了AI的代名词，从ChatGPT 到 Qwen、Claude，再到火出圈的DeepSeek，每一个新模型的发布都伴随着参数量的飞涨，百亿、千亿、万亿模型层出不穷。

但很多开发者会有一个直观感受：

“模型越来越大了，参数越来越多了，但为什么用起来仍然感觉它还不够聪明？”

能对对联，能写诗，但是对于一个简单的“9.11和9.8哪个大”都搞错。

能上知天文，下知地理，但是仍可能会前言不搭后语。

那么问题出在哪？

首先我们得先达成共识：“大”不是聪明的代名词。

“大”是指模型参数量大、训练语料多、计算资源多，这更多是模型能力上限以及当下技术的产物。但是否聪明，取决于能否用好这份能力。

想象下：

大模型面临的问题，也大概这样。

1. 训练目标决定了它只是个“预测机器”

ChatGPT训练流程图

如上图，先抛开RLHF部分，目前大模型的训练目标是：

给定前文，预测下一个token。

例如：

输入：	<bos>	今天	天气	很	好
输出：		今天	天气	很	好	<eos>

<bos>表示begin of sentence，<eos>表示end of sentence。

换种方式来理解，即：

所以，这意味着大模型的“理解”能力更是一种“统计相关性能力”。

它就像“自动补全”的代码助手，知道你前面写了什么，能给你“猜测”后面的，但它不知道整段代码是否能跑通以及整个程序的业务逻辑是不是合理。

2. 没有具体任务目标，更像是无头苍蝇

目前大模型据报道已经将互联网能爬的语料全拿来训练了，这就意味着它学的杂，更像是一个“基座模型”。如果你问它某个概念甚者prompt约束了它，可能也不一定能知道和理解你要啥。

那可能意味着它未必真的笨，而是我们需要其他手段来提升。

3. 没有内在推理能力

这也是为啥它容易产生“幻觉”的原因，他没有内在的推理能力和因果结构，更多知识是“碎片化”的。

例如问“如果今天是周一，后天是周几？”，有时候它可能答对，但只是因为统计学上“后天是周三”的概率高，而不是它真有“+2天”这个推理逻辑。

Deepseek的爆火，抛开网上所宣传的，还有一种声音是“思考”这种方式，是希望大模型回复的更长来提升其“思考”能力。

当然，这种说法未必严谨，通过引入一种“思考+回答”新的范式来推动前进研究方向。但同时，强化学习在大模型上的应用，也为未来的发展指明了前进方向，此处先不过多展开。

4. 缺乏即时反馈与纠错机制

人类聪明从某个角度来说是可以“试错”+“快速调整”。

而大模型是训练完就固定下来了，不会和真实环境实时交互学习，完成新的自我迭代。

前面一直在说大模型这不好那不好，但大模型同样也让你看到有其价值，例如“文本生成”、“归纳总结”、“文本润色”等方面表现依然很强。

更关键的是：我们要能用对它。

在下一篇文章，我会讲讲怎么给大模型赋能，包括：

🔍 RAG：给模型加上“检索大脑”

🧠 微调：让模型学会特定技能

🧭 MCP：与外部数据源及工具之间无缝集成