2025 年 6 月,AI 大佬 Andrej Karpathy 在 Y Combinator AI Startup School 进行了一场题为 Software in the era of AI 的演讲。
结合他在斯坦福、OpenAI 以及特斯拉的工作经历,Karpathy 观察到软件正再次发生变革。我们已经进入“软件 3.0”时代,自然语言成为新的编程接口,而模型负责完成其余工作。
他深入剖析了这一转变对开发者、用户及软件设计的深远影响,强调这不仅是新工具的出现,更是对计算机本质的重构。
本文为演讲全文实录,语言生动,比喻鲜活,非常适合希望了解大模型时代软件变革的开发者和学习者。篇幅较长,建议留足时间细细品读,欢迎收藏。
大家好!
哇,人真多。
我今天特别高兴能来这里,和大家聊聊“AI 时代的软件”。我听说在座很多是本科、硕士甚至博士的学生,正准备步入职场。我想说,现在进入这个行业,是一个特别独特、也非常有意思的时机。
从根本上讲,原因其实很简单——软件,又一次发生了变化。
我说又一次,是因为我之前其实已经讲过一次类似的内容。但问题在于软件变化得太快,我总是要不停地更新我的讲稿。
而且我觉得,这次的变化是非常底层的。大致来说,在过去 70 年里,软件的底层架构基本没有太大变化。但这短短几年内,它已经发生了两次重大的转变。所以我们现在有大量的工作要做,很多代码要写、甚至要被重写。
我们来看看软件的世界现在是什么样?
软件的三次进化从 1.0-3.0
这是一款很酷的工具,叫 Map of GitHub。它就像一张软件地图,展示了我们写下的各种程序,也就是在数字世界中让计算机完成各种任务的指令。
你放大看,就能看到各种各样的代码仓库,都是实打实已经写好的代码。几年前我观察到软件正在发生变化,有一种新类型的软件开始出现。
我当时称之为“软件 2.0”。
什么意思呢?我们之前写的传统程序,手动敲出来的代码,是“软件 1.0”。而“软件 2.0”,指的是神经网络,更具体说,是它们的权重。我们不是在写具体的代码,而是在清洗和准备数据,然后通过优化器来训练出这些参数。
当时,很多人还只是把神经网络当成另一种分类器,比如决策树什么的。但我觉得,它其实是一种全新的软件形态。
如今,我们在“软件 2.0”的世界里,也有了类似 GitHub 的平台,那就是 Hugging Face,它就像是神经网络版本的 GitHub。
比如你看到那个中间的大圆圈,那是图像生成模型 FLUX 的参数。每当有人在这个模型基础上做一点微调,就相当于在这个领域“提交了一次 Git 提交(commit)”,而且还生成了一个新的图像生成器。
所以简单来说:
软件 1.0 是我们写出来让计算机运行的代码;
软件 2.0 是训练出来的神经网络的参数,它们驱动神经网络工作;这里举个例子,比如 AlexNet,就是一个识图神经网络。
但此前的神经网络,大多数是固定功能的专用计算机,比如把图像变成分类标签。
真正发生巨大变化的是大模型的出现,它们让神经网络变得可编程了。
在我看来,这是一个足以被称作“软件 3.0”的全新阶段。现在,我们用 prompt 来编程这些语言模型,而最神奇的是:这些程序,是用英语写出来的。
所以我们现在的编程语言,居然是英语,这真的太不可思议了!
比如你要做情感分析,你可以写传统的 Python 程序,或者你可以训练一个神经网络。而现在,你还可以用几句 prompt 就可以搞定。
所以现在我们有 3 种软件形态:
手写代码(1.0);
训练神经网络(2.0);
提示词编程(3.0)。
你可能已经注意到了,现在很多 GitHub 项目,代码里已经夹杂着一大堆英文描述,这是一种新的混合代码形态。
我在几年前第一次意识到这个趋势时,就发了一条推文——“我们现在,已经在用英语给计算机编程了”。
我在特斯拉的时候,我们团队在研发自动驾驶系统让汽车自己开起来。
当时我做过一个这样的幻灯片,画出了从车辆传感器输入,到最终控制方向盘和油门的整个软件流程。
那时候我们在 Autopilot 系统里用了大量 C++ 代码,也就是软件 1.0 的部分,同时也有一部分神经网络在做图像识别。但随着我们不断优化系统,我观察到一个趋势:神经网络部分的功能越来越强大,而原来的 C++ 代码则被大量删减。
比如,一开始我们是通过代码把不同摄像头、不同时间点拍到的画面“缝合”起来。后来我们用神经网络完成这项工作,结果反而更好,还能删掉不少原来的手写代码。
也就是说,软件 2.0 实实在在吞噬了原本的 Autopilot 软件堆栈。
当时我觉得这就已经很惊人了。而现在,我们正在经历另一轮类似的变化。
软件 3.0 正在出现,并开始吞掉整个传统软件栈。
今天这个行业有 3 个完全不同的编程范式。我认为刚入行的人非常有必要对这 3 种范式都做到流利——因为它们各有优势,在不同任务下你可能会选择不同的方式:
是手写一段代码?
是训练一个神经网络?
还是只写一个 prompt ?
你可能还要在这三者之间灵活切换。
LLM 像是新一代操作系统
接下来我想聊聊大模型(LLM),从它们的本质、形态、到生态系统。
有句话我特别喜欢,是 Andrew Ng 很早以前说的:“AI 就像新的电力。”
这句话真挺有启发意义的。因为 LLM 现在确实越来越像一种公用事业:
OpenAI、Google Gemini、Anthropic 等公司会花大量成本来训练这些模型,就像当年建电网一样。
然后再通过 API 提供服务,也就是供电,你按使用量付费(比如每百万 token 多少钱)。
我们对这种智能服务也提出了类似对电力网的要求:低延迟、高稳定、输出一致。
如果你换电源,会有一个切换开关。而现在我们也可以切换不同的 LLM,比如 OpenRouter 就像这样的智能切换器。
因为 LLM 是软件,不占物理空间,所以你可以同时拥有多个智能电厂共存,并自由切换,不像传统电力那样存在空间竞争。
但更有意思的是,就在前几天,几个主流 LLM 平台接连宕机,不少人一下子就瘫痪了,干不了活了。这其实就像是智能断电,甚至是一场全球范围的智力降压。
我们对这些模型的依赖程度,已经到了不可思议的程度——而这种依赖,只会越来越深。
当然,说 LLM 是公用事业还不够准确,我认为它们还很像晶圆厂(芯片制造厂):
训练一个 LLM 的成本非常高,远不是建个发电站那么简单。
模型训练涉及庞大的技术链,R&D 和资源也正在逐步集中在头部公司手里。
不过它们又不像硬件晶圆厂那样难以复制,因为软件本质上是可塑的。所以这个类比也不完全成立。
我个人觉得更贴切的比喻是 LLM 像是新一代操作系统。
它不只是水龙头里流出的电或水,它本身是复杂的软件生态。你可以把它看作:
GPT、Claude 之类是 Windows、MacOS 这样的封闭系统;
而像 LLaMA(Meta 开源模型)这样的体系,就像是 Linux 社区。
当然现在的开源 LLM 还很早期,但有点像 20 年前的 Linux,不完美,但有潜力。
我们正进入一个全新的计算平台时代:不再只是比拼模型的好坏,而是整个生态的竞争——工具、插件、多模态能力等等。
我脑子里甚至把它画成了一台新计算机:
LLM 是新的 CPU;
上下文窗口是内存;
所有算力、调用、推理,都围绕这个新的操作系统展开。
比如你去下载一个 App,比如 VS Code,不管你是 Windows、Mac 还是 Linux 都可以运行。同样的,今天很多 LLM 应用(比如 Cursor)也可以跑在 GPT、Claude、Gemini 等模型上,只要下拉切换即可。
从这个角度来看,今天的 AI App 和传统 App 越来越像了。
我们大概正处在计算史的 1960 年代——算力昂贵、模型部署集中在云端、终端设备只是瘦客户端,大家通过网络调用主机。
这和上世纪的大型机 + 终端机模式非常相似。
个人 AI 时代(Local LLM)还没真正到来,因为成本还太高。但有些苗头已经出现,比如 Mac mini 跑 LLM 的效果其实还不错,因为它内存带宽高,适合推理。
我觉得未来是否会出现个人智能机,可能就靠在座的你们来发明了。
再补充一个有趣的类比——每次我在 ChatGPT 上打字,我感觉自己就像在命令行里和操作系统对话,全是文本,没有真正的图形界面(GUI)。
当然,现在很多 LLM App 开始带 GUI,比如改代码就直接给你看红绿 diff,但整体来看,通用 GUI 还没出现——这也许是个机会。
不过,LLM 和传统操作系统相比,还有个非常独特的变化:它反转了技术扩散的方向。
过去的颠覆性技术,比如电力、密码学、互联网、GPS……都是先军用、政府用、企业用,然后才慢慢普及到大众。
但 LLM 完全相反。
它最先被用来做什么?教你煮鸡蛋。真的,我就是用它查怎么煮鸡蛋。
不是军队,不是政府,不是科研实验室,而是你我这样的普通人,最先接触到了这项魔法一样的技术。
现在,LLM 已经几乎空投到了所有人的电脑上,以软件形式,瞬间覆盖了全球用户。
这太疯狂了!
现在,正是我们入场的时候,是时候用这些新计算机去编程、去创造了!
LLM 像人类精神模拟器
不过在正式动手之前,我们得先了解清楚——它们到底是什么。
我个人有个比喻:LLM 就像人类精神的模拟器,它是人的统计学模拟。
技术上来说,它们是基于 Transformer 的自回归神经网络,按 token 一块一块地生成,每一块都消耗近似的计算资源。
它的参数(权重)是通过读完整个互联网的文本拟合出来的,因此它学到了一套人类心理的统计模型。
它具有人类知识,也有记忆——而且比我们任何一个人记得都多。
这让我想起电影《雨人》(Rain Man),达斯汀·霍夫曼饰演的角色是一个拥有超级记忆的自闭症天才,他能把电话簿一字不差地记下来。我觉得 LLM 很像这样,它能记住哈希值、术语、名字……太厉害了。
但它也有认知缺陷:
它会胡说八道(幻觉),想当然地瞎编;
它对自己没有稳定的认知;
它的智力水平是锯齿状的:某些任务超人类,某些地方又低级得让人无法理解——比如坚称 9.11 > 9.9,或说 strawberry 有两个 r;
它还患有顺行性遗忘症——也就是不会随着时间变聪明。
举个例子:如果你有一个同事,长期和你共事,他会慢慢熟悉组织结构,积累上下文,变得越来越靠谱。但 LLM 不行。
每次你用它,它都是新来的,没有延续性,记忆窗口非常有限。你得自己去“喂”它上下文。
所以我建议大家看看两部电影:《记忆碎片》和《初恋 50 次》。里面的主角每天醒来都忘了昨天发生的事,就像 LLM 一样。
还有一点就是安全问题:
LLM 容易被骗,比如 prompt injection;
它可能会泄露数据;
还有其他很多你得考虑的问题。
总之,它是一个同时拥有超能力和缺陷的家伙。
我们既要善用它的力量,又要懂得避开它的坑。
AI 时代我们能做什么
接下来我想讲讲:在这种全新范式下,我们能做什么、有哪些机会。
这不是一份完整清单,只是我最近觉得特别有意思的一些方向。
第一个让我兴奋的,是所谓的半自动 App。
比如写代码。
你当然可以直接去问 ChatGPT,复制粘贴 bug、再复制粘贴代码……但这样太麻烦了。你不是在和操作系统交流吗?
不如用专门为这类任务设计的 App,比如 Cursor。
Cursor 就是个很好的例子,它不仅保留了传统手动操作的入口,还把大模型嵌入到了整个流程里。
我觉得所有成功的 LLM 应用都有这几个共同点:
它们帮你管理上下文,你不需要每次都重复输入;
它们背后 orchestrate 多个模型协同工作,比如用嵌入模型管理文件、用 chat 模型生成代码、再用 diff 模型修改;
它们都有专门设计的 GUI,让你一目了然地看到哪里改了什么。
自主性滑块。
为了让开发更快,我稍后还会再回到这个话题。
人机协作循环的重要性
现在我想讲的最后一个特性,是我称之为自主性滑块。
比如,在 Cursor 这款工具中,你可以只用简单的 Tab 补全,也就是你自己基本掌握主动权。你也可以选中一段代码,然后用 Command+K 来修改那一小段,或者用 Command+L 来改整个文件;再或者直接按 Command+I,让它放飞自我,对整个仓库随意操作。这就是一个完整体的自主 Agent 模式。也就是说,你可以自由调节 AI 的自主性,视任务复杂度而定,决定你愿意放手多少。
再看另一个成功的 LLM 应用:Perplexity。它也有类似的特性:信息打包、多模型编排、可审查的界面。比如,它会注明引用来源,你可以查看;也有自主滑块,你可以快速搜索、也可以做研究,甚至是深入研究,十分钟后再来查结果。这本质上就是你愿意交出多少控制权给这个工具。
我自己在想,现在很多软件可能都会变成部分自主的,那会是什么样子?对于你们中的很多人来说,作为产品和服务的维护者,接下来的问题是你们如何让自己的产品和服务变得部分自主?AI 模型能看到人能看到的东西吗?它们能像人一样去操作系统吗?人类能否始终保持在这个流程中、进行监督?因为别忘了,它们并不完美,仍然可能出错。
比如,如果在 Photoshop 中生成一张图片,怎么做版本对比?现在的软件很多都有一堆按钮和复杂的 UI,这些都是为人类用户设计的,但以后都得重新适配,让 LLM 能够理解和操作。
我还想强调一个点,是很多人没太注意的:我们现在其实是在和 AI 合作。大多数时候,是 AI 负责生成,我们人类负责验证。我们当然希望这个协作回路越快越好,才能完成更多任务。
我觉得有两个方向能显著加快这个过程。
第一是加快验证环节。我觉得 GUI 特别关键,因为它调动了我们的大脑图像处理 GPU。阅读文字很累,但看图很快。GUI 就像是一条高速公路,把信息直接送进你大脑。所以我觉得 GUI 对于审查和理解 AI 输出非常重要。
第二是要拴住 AI。现在很多人对 AI Agent 太激动了,但你知道吗?你突然提交 10,000 行代码的改动给我——我压力山大。虽然代码是瞬间生成的,但我还是要一个一个检查,确保没有 Bug,没有安全问题,逻辑正确。所以,虽然它快,但我依然是那个瓶颈。
因此,关键就是让协作的这个回路转得飞快,同时别让 AI 自行暴走。现在 AI 就像一只过于兴奋的小狗。我在使用 AI 辅助编程时的感受就是如果只是做些轻量的代码补全,体验很棒。但如果真的想完成点实事,AI 太激进反而会碍事。
这张幻灯片不太好,我道个歉,但我想表达的是像你们很多人一样,我也在探索如何把 AI Agents 融入我的开发流程。对于我来说,我一直特别怕看到巨大的 diff。我喜欢小步快跑,一点一点改,这样可以快速验证,快速推进。
我看到很多人也在总结和发布自己使用 LLM 的最佳实践。有一篇博客我最近读到,写得挺好。它谈到了很多技巧,比如如何拴住 AI。举个例子,如果你写的 prompt 不清晰,AI 很可能就不会按你想要的方式执行,验证失败,你得反复修改。与其这样,不如一开始就花点时间写得具体些,提高通过率,这样才能快速迭代下去。
我现在也特别关注一个领域,就是 AI 出现之后,教育应该变成什么样?我发现,光让学生去跟 ChatGPT 聊教我物理是行不通的,AI 很容易跑偏。所以,我觉得应该是两个 App:一个是老师用来设计课程的,一个是学生用来学习课程的。中间有一个可审查的中间产物——课程本身。你可以验证课程是否合理、是否符合教学进度。这也是拴住 AI 的一种方式,效果会比让它漫无目的地讲课好多了。
还有一个类比我想提一下我对部分自主并不陌生,我在特斯拉工作了 5 年,这正是我们要解决的问题。自动驾驶本身就是部分自主的。比如在特斯拉的仪表盘上,你会看到自动驾驶神经网络识别出来的画面,这是一个可视化 GUI 还有自主性滑块——从一开始的辅助驾驶,到后面系统越来越多地接管驾驶任务。
AI Agent 是未来十年
我想讲一个小故事,我第一次体验无人车是在 2013 年,我朋友当时在 Waymo,他带我在帕洛阿尔托转了一圈。我拍了这张照片,用的是 Google Glass。那趟 30 分钟的行程——高速、公路、城市街道——完全自动驾驶,没有一次人工干预。我当时震惊了,觉得自动驾驶马上就来了!
可是现在,已经过去 12 年了,我们还没真正搞定自动驾驶。你现在可能在街上看到 Waymo 的车在跑,但背后仍然有大量远程操控和人工介入。我们还远没达到全面自动的程度。我相信它最终能成,但这个过程太漫长了。
软件其实也一样复杂。所以当我看到有人说“2025 是 AI Agent 之年”,我特别担忧。我觉得更现实的说法是:这是“AI Agent 的十年”,我们需要时间、耐心,确保每一个步骤都走得稳。因为,这是软件,是要严肃对待的事。
再来一个我很喜欢的比喻:钢铁侠的战衣。钢铁侠是我最喜欢的超级英雄之一。他的战衣既是增强工具,也是智能代理。有时候它是辅助 Tony Stark 操控的装备,有时候它会自己飞来救他。这就像我们今天说的 autonomy slider——可以是增强,也可以是代理。
但在这个阶段,我觉得我们更应该打造的是钢铁侠战衣,而不是钢铁侠机器人。与其做炫酷的自动 Agent,不如做有部分自主的产品。比如要定制 GUI、交互设计等等,这样人类就能快速介入验证——但系统本质上是可以不断放权的。
所以,我建议大家思考这个问题:怎么在自己的产品中设计自主滑块?怎么逐步让系统变得更聪明、更独立?
人人都能成为开发者
现在我想换个角度来谈一个很独特的变化:不仅软件可以变得更自主了,而且我们现在用英文来编程。编程语言换了接口,所有人都可以写程序了,因为大家都会说自然语言。这非常具有变革性!
以前你要成为一个合格的程序员,得学 5 到 10 年。现在不一样了。你可能听说过一个词:vibe coding。
我在 Twitter 上混了 15 年,发了无数推文,还是搞不懂哪些会火,哪些没人理。我原以为那条只是灵光一现,结果大家现在都开始用 vibe coding 来形容这种新的开发方式,现在就连 Wikipedia 页面都出来了。
Tom Wolf(Hugging Face)还分享了一个超棒的视频:小朋友们在 vibe coding。这视频太治愈了,怎么看都觉得未来很美好。我觉得 vibe coding 可能就是很多人走进编程世界的启蒙。我不是个悲观主义者,我相信这一代人会干出很棒的事情。
我自己也试了 vibe coding,真的很好玩,特别适合在周末胡搞点自己想做的小项目。我不会写 Swift,但还是做出了一个简单的 iOS app。虽然很简单,但我完全没学 Swift 就做出来了——这太神奇了!
我还做了另一个项目:MenuGen(菜单生成器)。你可以去 menuen.app 试试。它的原始问题是:我去餐厅时,经常看菜单看不懂,想看到菜品图片。结果发现没人做这事,于是我决定自己 vibe code 一个。
你拍下菜单,它就会生成一份图片菜单,注册还能领 $5 的免费额度(所以我一直在亏钱)。但这项目最让我惊讶的是编码是最简单的部分。最麻烦的是把它做成真的产品——加上身份认证、支付系统、域名部署等等,全是点点点,纯 DevOps,纯点击,搞了一周才上线。
比如我试图加入 Google 登录,教程告诉我要去某个网址,点开一个下拉菜单,选个选项,然后跳转、点击、再跳转。这是谁设计的流程啊?你是电脑你来操作我啊?!我心想:你就直接帮我点了不行吗?!
为 Agent 打造基础设施
所以,我最后的问题是我们能不能为 Agent 去构建系统?我不想干这些杂活了,能不能让 AI 来点这些按钮?
我认为,我们现在正处在数字信息消费与操控方式的转变中。过去是人通过 GUI 来用软件,或者程序通过 API 调用。而现在,我们迎来了第三种用户——Agent。
这些 Agent 就像“互联网上的电子精灵”,它们需要理解和操作我们构建的软件。
我们是不是该为它们定制一些入口?比如 robots.txt 会告诉爬虫怎么抓取网页,将来我们也许应该有一个 llm.txt(或 lm.txt)文件,告诉 LLM 这个网站是做什么的。比起让 AI 去解析 HTML,这种 markdown 说明更直接,更靠谱。
现在很多文档是为人写的,图文并茂,但对 LLM 来说不好理解。所以我看到一些服务正在改写他们的文档,转为适配 AI,比如 Vercel 和 Stripe 这类早起玩家,他们的文档很多都改成了 markdown——这对 LLM 太友好了。
举个我自己的例子大家可能知道 YouTube 上的 Three Blue One Brown,他做了很多非常棒的数学动画。
他写了一个叫 manim 的库。我当时也想做一个动画,结果懒得看文档,就直接把整段文档贴给 LLM,让它给我出代码真的一下子就成了,效果完美。这说明只要文档对 AI 友好,它就能直接为你干活。
不过,这不仅是转成 markdown 那么简单。你还得真正修改文档本身。比如文档里写点击这里,这对 LLM 来说是废话,因为它不会真的点。Vercel 就把每一个点击操作替换成了等效的 curl 命令,这样 AI Agent 就能执行。
还有像 Anthropic 提出的 Model Context Protocol(模型上下文协议),就是为了让人类和 LLM 之间有一种原生对话方式,我对这种做法非常看好。
我还特别喜欢一些“小工具”,它们把内容转换成更适合 AI 读取的格式。比如我的 nanoGPT 项目,GitHub 页面上的 repo,是给人用的,AI 用不了。但如果你把网址从 github.com 改成 get.ingest,它就会自动把所有代码打包成纯文本,加上目录结构,非常适合粘贴给 AI。
更进一步的是像 Deep Wiki 这种做法。它不仅打包了 repo,还做了解析、总结、说明,像一个专属文档页面。你把这个粘贴给 AI,它就能理解这个项目。
总之,我很看好这些工具,而且我觉得应该有更多。
最后一点未来 LLM 会真的去点东西、动鼠标其实现在也能做到。但我仍然觉得与其等它们变强,不如我们主动靠近一点,降低门槛,给 AI 更多友好路径。
很多软件系统短期内不会适配 AI,它们就像僵尸仓库,没有实时维护,但对于主流的产品来说,我建议大家现在就思考怎么和 AI 一起工作。
现在正是加入这个行业的好时机。我们有无数的旧代码要重写,也有无数的新代码要构建。这些 LLM 像是数字精灵,像是新的操作系统,但现在还处在软件 1960 年代的阶段。
我们得学会和这些易出错的电子精灵共处,为它们调整基础设施。
在构建 AI 应用时,我们可以参考今天讲到的协作方式、开发策略和工具,构建部分自主的产品。也要考虑哪些代码要为 Agent 专门写?
最后,回到钢铁侠战衣的比喻。我相信,在接下来的十年里,我们会不断把自主滑块往右推,逐步拥抱更高程度的自动化。我非常期待和你们一起构建这个未来。
谢谢大家!
大模型图书推荐
《大模型应用开发极简入门:基于GPT-4和ChatGPT(第2版)》
奥利维耶·卡埃朗,[法] 玛丽–艾丽斯·布莱特 | 著
何文斯 | 译
深受读者喜爱的大模型应用开发图书升级版,作者为初学者提供了一份清晰、全面的“最小可用知识”,带领你快速了解 GPT-4 和 ChatGPT 的工作原理及优势,并在此基础上使用流行的 Python 编程语言构建大模型应用。
升级版在旧版的基础上进行了全面更新,融入了大模型应用开发的最新进展,比如 RAG、GPT-4 新特性的应用解析等。随书赠 DeepSeek × Dify 应用开发案例,书中还提供了大量简单易学的示例,帮你理解相关概念并将其应用在自己的项目中。
《图解大模型:生成式AI原理与实战》
[沙特] 杰伊·阿拉马尔,[荷] 马尔滕·格鲁滕多斯特 | 著
李博杰 | 译
备受关注的大模型“袋鼠书”,全书通过 300 幅全彩插图,以极致视觉化的方式呈现大模型的核心原理与工程实现,覆盖从底层机制、应用开发到性能优化的完整链条。内容结合真实数据集、实用项目与典型场景,注重实操性。
特别收录 18 幅图精解 DeepSeek 底层原理,紧跟前沿。配套资源包括一键运行代码、200 道大模型面试题及大量拓展视频/文章资料,助你全面掌握大模型理论与实践,是入门进阶与求职备战的理想之选。
《从零构建大模型》
塞巴斯蒂安·拉施卡|著
覃立波,冯骁骋,刘乾 | 译
豆瓣评分 9.5,从零开始构建大模型的最佳指南,由畅销书作家塞巴斯蒂安•拉施卡撰写,通过清晰的文字、图表和实例,逐步指导读者创建自己的大模型。在本书中,读者将学习如何规划和编写大模型的各个组成部分、为大模型训练准备适当的数据集、进行通用语料库的预训练,以及定制特定任务的微调。
此外,本书还将探讨如何利用人工反馈确保大模型遵循指令,以及如何将预训练权重加载到大模型中。还有惊喜彩蛋 DeepSeek,作者深入解析构建与优化推理模型的方法和策略。
《大模型技术30讲》
塞巴斯蒂安·拉施卡|著
叶文滔 | 译
GitHub 项目 LLMs-from-scratch(star数44k)作者、大模型独角兽公司 Lightning AI 工程师倾力打造,全书采用独特的一问一答式风格,探讨了当今机器学习和人工智能领域中最重要的 30 个问题,旨在帮助读者了解最新的技术进展。
内容共分为五个部分:神经网络与深度学习、计算机视觉、自然语言处理、生产与部署、预测性能与模型评测。每一章都围绕一个问题展开,不仅针对问题做出了相应的解释,并配有若干图表,还给出了练习供读者检验自身是否已理解所学内容。
《百面大模型》
包梦蛟,刘如日,朱俊达 | 著
本书按“二星到五星”难度体系,精选约 100 道大模型面试高频真题,覆盖 MoE、预训练、SFT、PEFT、RLHF、DPO、RAG、智能体等核心考点,配套题目目录,便于高效查漏补缺。
由 AI 领域大 V“包包大人”领衔,美团技术专家与北航新生代强强联合编写,内容专业权威。获 ACL Fellow 刘群、周明,《深度强化学习》作者王树森和黎彧君等 8 位业内大咖联合推荐,是大模型求职者的实战宝典。
《一本书玩转 DeepSeek》
陈云飞(@花生)|著
超牛的 DeepSeek 应用书,作者是 AI 大佬花生,全书涉及 13 大场景,90 个实用案例,7 大技巧,4 大王炸组合,内容涵盖高效办公、副业变现、数据分析、企业级 DeepSeek 使用方案等等。带你轻松掌握 DeepSeek 核心技巧。
《走进具身智能》
陈光 | 著
稚晖君推荐,从零开始讲解具身智能。内容涵盖 Agent、AGI、仿真、脑科学、机器人等 28 个热点 AI 名词。读完后你将对具身智能有一个整体的认知,内容好读易懂,初高中学生也能看懂!
在本书中,你将看到机器如何通过视觉、听觉、触觉去解读环境,如何从模仿到创新,逐渐成长。从机器人学到脑科学,从意识探索到人机融合,作者以通俗生动的笔触,带你领略这一前沿跨学科领域的魅力。
《自制深度学习推理框架》
傅莘莘 | 著
基于 GitHub 2.7k 星标开源项目 KuiperInfer,作者手把手带领读者实现深度学习推理框架,并支持大语言模型的推理。
全书共 9 章,以实现开源深度学习推理框架 KuiperInfer 为例,从基础的张量设计入手,逐步深入讲解计算图、核心算子等关键模块的设计与实现。此外,书中还介绍了如何支持深度学习模型,如 ResNet、YOLOv5,以及大语言模型 Llama 2 的推理。书中代码基于 C++,贴近业界实践。
大模型技术共学营
大模型学习不再孤单,如果不想一个人孤军奋战,快来扫码加入共学营一起学习吧👇
入营流程:
扫码付款后扫码添加小助手
发送手机号 / 订单截图验证入群
入群后查看公告,开启共学之旅
常见问题:
没有 AI 背景可以学吗?可以,只需基础 Python 知识
直播错过怎么办?有回放,节奏自由,随看随学
图书是电子版吗?全部都是实体书,并且全国包邮
读过部分图书了还适合加入吗?当然适合,核心是社群、项目和系统性