我们需要一张能揭示大模型底层原理的地图

转载于 2025-07-01 08:00:00 发布 · 35 阅读

CC 4.0 BY-SA版权

原文链接：https://mp.weixin.qq.com/s?__biz=MjM5Njc0MjIwMA==&mid=2649836418&idx=1&sn=bab807011587c44dc0467e281c11685d&chksm=bfd00b1c99ff8b14d15336c3fd8c6a0c0119cab1a6310238123c32abe696e696ff737b35eb48&scene=126&sessionid=0

文章标签：

#人工智能

缘起

从过年期间 DeepSeek 横空出世开始，几乎所有人都被卷到了大模型的浪潮当中，我也是那个时候开始开始重启公众号，开始了 AI 的学习与体验之路。

不得不说，大模型已经惊人的速度渗透到了我们工作的方方面面。无论是 Kimi、DeepSeek、豆包，还是 Cursor、Trae、Gemini，这些 AI 工具早已不只是“新奇玩具”。对于一线的开发者或 SRE 来说，它们是编码的得力助手；对于产品经理或团队负责人而言，它们是激发创意、优化产品路径的重要参考。我们每天都在使用各种 AI 产品，感受 AI 带来的效率提升。

但随之而来的，是一种更深层次的思考。我发现，仅仅停留在“使用”层面，可能逐渐陷入了一种新的被动：

• 作为技术人员，我们习惯了掌控工具，但面对大模型这个“黑箱”，我们感到能力仿佛有了一层天花板，无法深入优化，也难以判断其能力的真伪边界。
• 作为产品人，我们讨论着“AI-Native”，但如果不理解其技术基石，又如何能设计出真正有壁垒、有远见的产品？
• 而对于那些刚刚结束高考、准备拥抱大学生活的准大学生，或是希望投身 AI 浪潮的毕业生来说，面对这个日新月异的领域，最大的困惑莫过于：我的第一步应该迈向哪里？如何才能构建一个不被“版本迭代”轻易淘汰的坚实知识体系？

尽管我们的角色和视角各不相同，但似乎都指向了一个共同的诉求：我们需要一张能揭示大模型底层原理的地图。

“从调用 API 到复现 GPT”——这句话精准地描述了我们所有人都渴望完成的思维跨越：从一个“应用者”，转变为一个深刻的“理解者”，甚至未来的“构建者”。最近阅读的 Sebastian Raschka 这本新书《从零构建大模型》“Build a Large Language Model (from Scratch)”就可以很好的解决上面的问题。

在推荐这本书之前，我们必须先聊聊它的作者——塞巴斯蒂安 · 拉施卡（Sebastian Raschka）。

在机器学习和 Python 社区，这个名字本身就是一块金字招牌。如果你曾在学习 AI 的路上寻找过经典教材，那么你几乎不可能错过他的镇山之宝——被无数人奉为“红宝书”的《Python 机器学习》（Python Machine Learning）。这本书以其无与伦比的清晰度、理论与实践的完美结合，以及扎实的编码范例，成为了全球数百万学习者的入门和进阶圣经。无数人的机器学习知识体系，可以说就是由这本书构建起来的。这证明了他拥有将复杂理论转化为清晰、可实践的文字和代码的非凡能力。

因此，当这样一位以“讲得透彻、代码扎实”而闻名的作者，决定亲自撰写一本关于“从零开始构建大语言模型”的书时，你几乎可以无条件地相信：这，就是你一直在等待的那本硬核指南。