9.11 > 9.8?错的不是模型,是你对它的期待

一、前言

过去几年,大模型(LLM)几乎成了AI的代名词,从ChatGPT 到 Qwen、Claude,再到火出圈的DeepSeek,每一个新模型的发布都伴随着参数量的飞涨,百亿、千亿、万亿模型层出不穷。

但很多开发者会有一个直观感受:

        “模型越来越大了,参数越来越多了,但为什么用起来仍然感觉它还不够聪明?”

能对对联,能写诗,但是对于一个简单的“9.11和9.8哪个大”都搞错。

能上知天文,下知地理,但是仍可能会前言不搭后语。

那么问题出在哪?

二、🧠模型“大” ≠ 真“聪明”

首先我们得先达成共识:“大”不是聪明的代名词。

“大”是指模型参数量大、训练语料多、计算资源多,这更多是模型能力上限以及当下技术的产物。但是否聪明,取决于能否用好这份能力。

想象下:

  • 一个受过义务教育+高等教育的人,如果知识组织混乱和思维方式粗糙,你会觉得他聪明吗?

  • 一个看了所有编程书但是不会解决实际问题的新人,只会背概念,你会让他面试通过吗?

大模型面临的问题,也大概这样。

三、大模型不够聪明的几个原因

1. 训练目标决定了它只是个“预测机器”

ChatGPT训练流程图 

如上图,先抛开RLHF部分,目前大模型的训练目标是:

        给定前文,预测下一个token。

例如:

输入:

<bos>

今天

天气

输出:

今天

天气

<eos>

<bos>表示begin of sentence,<eos>表示end of sentence。

换种方式来理解,即:

  • <bos>  --> 今天

  • <bos> 今天  --> 天气

  • <bos> 今天 天气  --> 很

  • <bos> 今天 天气  很 -->  好

  • <bos> 今天 天气  很   好 --> <eos>

所以,这意味着大模型的“理解”能力更是一种“统计相关性能力”

它就像“自动补全”的代码助手,知道你前面写了什么,能给你“猜测”后面的,但它不知道整段代码是否能跑通以及整个程序的业务逻辑是不是合理。

2. 没有具体任务目标,更像是无头苍蝇

目前大模型据报道已经将互联网能爬的语料全拿来训练了,这就意味着它学的杂,更像是一个“基座模型”。如果你问它某个概念甚者prompt约束了它,可能也不一定能知道和理解你要啥。

那可能意味着它未必真的笨,而是我们需要其他手段来提升。

3. 没有内在推理能力

这也是为啥它容易产生“幻觉”的原因,他没有内在的推理能力和因果结构,更多知识是“碎片化”的。

例如问“如果今天是周一,后天是周几?”,有时候它可能答对,但只是因为统计学上“后天是周三”的概率高,而不是它真有“+2天”这个推理逻辑。

Deepseek的爆火,抛开网上所宣传的,还有一种声音是“思考”这种方式,是希望大模型回复的更长来提升其“思考”能力。

当然,这种说法未必严谨,通过引入一种“思考+回答”新的范式来推动前进研究方向。但同时,强化学习在大模型上的应用,也为未来的发展指明了前进方向,此处先不过多展开。

4. 缺乏即时反馈与纠错机制

人类聪明从某个角度来说是可以“试错”+“快速调整”。

而大模型是训练完就固定下来了,不会和真实环境实时交互学习,完成新的自我迭代。

四、那它擅长什么?

前面一直在说大模型这不好那不好,但大模型同样也让你看到有其价值,例如“文本生成”、“归纳总结”、“文本润色”等方面表现依然很强。

更关键的是:我们要能用对它。

五、✍️ 那我们该怎么让模型“变聪明”?

在下一篇文章,我会讲讲怎么给大模型赋能,包括:

🔍 RAG:给模型加上“检索大脑”

🧠 微调:让模型学会特定技能

🧭 MCP:与外部数据源及工具之间无缝集成

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

ox180x

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值