学习大模型,到底要学什么?

到底学什么

乱花渐欲迷人眼,浅草才能没马蹄:在‘乱花’中保持定力,方能见微知著。

AI行业炒作术语频出(“乱花”),但技术突破常源于基础理论(“浅草”)。在这个信息爆炸的时代,我们要抓住事物的本质。

如今通过强调经典方法、阅读经典论文,可以让学生理解知识的源头与演进脉络,培养批判性思考能力。总体而言,基础导向的教学能让学生掌握算法背后的数学原理和优化方法,而不是「盲目套用」最新模型。

「你怎么连 attention 的 Q/K/V 向量都没推导过就来调模型?」现实可能是:「我只是想学个微调技巧,用 LLaMA 写个客服机器人」

在当今技术飞速发展的背景下,许多高校依然强调「打好基础、追求深刻理解」,这并非单纯的「固步自封」。

真正的技术能力不仅在于「会用工具」或「能跑模型」,而在于理解方法背后的原理,在面对新问题、新技术时,具备独立分析、判断和创造的能力。

杨立昆(Yann LeCun)是谁?Meta 公司首席 AI 科学家、图灵奖得主,被誉为“深度学习三巨头”之一。他最近转发了一篇帖子:

所有人都在追LLM,高校为何死磕基础理论?

2025 学年机器学习研究生课程的教学大纲和讲义

该课程聚焦于以随机梯度下降(SGD)为核心的基础机器学习算法,特意避开大型语言模型(LLM)内容,同时鼓励学生深入研读领域经典论文,回溯机器学习的理论发展脉络。

各大高校研究生机器学习课程仍普遍以基础理论和经典模型为核心,而最新的 LLM 内容多在选修课中出现。

可以看出,教育界普遍认为基础教学有助于学生长远发展

大模型的本质就是基于上下文进行概率计算训练推理是⼤模型⼯作的两个核⼼过程。⽤⼈类⽐,训练就是学,推理就是⽤。

大语言模型,即使是多模态的大语言模型,可能也并不具备真正意义上的“思考”能力。看看就知道了:大语言模型很容易出现荒谬的概念性失误,也乐于编造听起来合理但实际上毫无意义的胡言乱语。了解这些事实有助于我们避免过分迷恋模型的能力。然而,随着大语言模型生成的文本、图像、语音和视频越来越复杂,真与假之间的界限愈加模糊。越来越多的评论家开始质疑,为我们敲响警钟:作为个人、机构,甚至社会,我们究竟有没有能力区分真实和虚构?当人们意识到这一切还只是1.0版本时,这种发问尤其令人警醒。

机器学习的阶段

机器学习主要分为两个阶段:训练和推理。

训练阶段

训练阶段是机器学习模型从数据中学习规律的过程。模型通过优化算法(如梯度下降)调整参数,以最小化损失函数。训练数据通常分为训练集和验证集,用于评估模型性能。

  1. ⼤模型阅读了⼈类说过的所有的话,这就是「机器学习」

  2. 训练过程会把不同 token 同时出现的概率存⼊「神经⽹络」,保存的数据就是「参数」,也叫「权重」

推理阶段

推理阶段是使用训练好的模型对新数据进行预测或分类的过程。模型不再调整参数,而是直接输出预测结果。

  1. 我们给推理程序若⼲ token,程序会加载⼤模型权重,算出概率最⾼的下⼀个 token 是什么

  2. ⽤⽣成的 token,再加上上⽂,就能继续⽣成下⼀个 token。以此类推,⽣成更多⽂字

这套⽣成机制的内核叫「Transformer 架构」,这才是大模型的本源。

最后来个总结:不要浮于表面,内核的技术变化没有那么快。上层技术五花八门,一会这个模型那个模型,一会 MCP / A2A,一会 Agents,技术层出不穷,但所有大模型的底层本质都离不开Transformer。

想必,现在你已经有了答案,我们学习大模型,到底该学什么?

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值