2024版最新零基础入门大模型：一步步教你梳理大模型技术学习过程，收藏这一篇就够了！

最新推荐文章于 2025-10-04 15:50:58 发布

原创最新推荐文章于 2025-10-04 15:50:58 发布 · 1.1k 阅读

19 ·

CC 4.0 BY-SA版权

文章标签：

#学习 #大模型 #人工智能

程序员同时被 3 个专栏收录

1771 篇文章

订阅专栏

互联网

964 篇文章

订阅专栏

大模型

299 篇文章

订阅专栏

“ 学习是一个从围观到宏观，从宏观到微观的一个过程 ”

今天整体梳理一下大模型技术的框架，争取从大模型所涉及的理论，技术，应用等多个方面对大模型进行梳理。

01大模型技术梳理

这次梳理大模型不仅仅是大模型本身的技术，而是一个以大模型为核心的涉及到多个方面的理论，技术和应用实践，也可以说是对自己学习大模型技术的总结吧。

话不多表，下面开始进入正题。‍

首先，大家应该明白一件事，大模型技术是人工智能技术的一个分支，是目前主流的一个研究方向，但并不是唯一的方向。‍‍‍‍‍

人工智能技术是一个通过某种技术手段人为的创建一个具有类人智能的系统(软件或硬件)，而大模型技术是一种仿造人类学习进化的一种方式，使用深度学习(机器学习)算法模仿人类大脑神经元，来实现智能的一种方式，其主要载体是神经网络。‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

神经网络之所以得到发展的原因是因为，基于神经网络架构进行预训练之后，神经网络会产生一种无法解释的_涌现_能力，而这个涌现能力特别像是具有了智能一样。‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

_神经网络模型架构_‍‍‍‍‍

既然是模仿神经网络，那么就需要一种深度学习模型来模仿人类大脑神经系统，比如CNN(卷积神经网络)，RNN(循环神经网络)，以及目前主流的Transformer模型，还有LSTM，ResNet，GANs等。‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

神经网络的主要结构为一个输入层，一个输出层，以及隐藏层(一个或多个层组成)，不同网络层之间使用_全连接_的方式进行连接，每一个圆都代表着一个神经元，如下图所示：‍‍‍‍‍‍‍‍‍‍‍‍‍‍

在神经网络中，除了输入/输出层之外，每一个神经元都有其参数，神经网络的效果就是由这些参数值决定的。

神经网络模型通过一种叫正向传播，损失计算和反向传播的方式来调整神经网络模型中每个神经元的参数。‍‍‍‍‍‍‍‍‍‍‍‍

通过把大量的训练数据输入到神经网络中，让神经网络进行“学习”(不断的调整参数)，来达到类智能的能力。‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

不同神经网络的架构和实现有所不同，但其核心点都是基于此模型实现的，对想学习神经网络的朋友来说，先学会基础的神经网络架构，然后再针对不同的神经网络模型进行深化是最好的选择。‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

目前的大模型主要采用的是预训练的方式来实现智能的，简单来说就是给神经网络模型一堆资料，让它自己学，自己看，自己总结；其中给答案的叫做监督学习，没答案的叫无监督学习。‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

然后根据不同的任务需求，又设计出用来解决不同类型任务的神经网络，比如分类任务，图片处理任务，自然语言处理任务等。‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

至于大模型技术细节方面的东西，就不详细描述了，感兴趣的可以自己学习，比如编码器，损失计算和反向传播怎么实现等。‍‍‍‍

再有，设计并训练一个完整可用的神经网络模型是一个复杂的工程，比如模型的设计，训练数据的收集与处理，损失函数与反向传播算法的设计，模型过拟合，欠拟合等问题。‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

而且随着模型规模的增大，模型的训练难度成几何式增长，比如分布式训练，并行计算等问题；以及为了提升大模型的学习效率，节约成本而设计的强化学习，迁移学习等。‍‍‍‍‍

最后，为了使得大模型更像人，也为了实现真正的AGI(通用人工智能)，现在多模态大模型大行其道，而多模态大模型技术比传统大模型的技术复杂度又上升了不止一个台阶。‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

_基于知识库的向量检索——RAG_‍‍

大模型技术虽然很强大，但其有几个明显的缺点，第一就是知识是有限制的，因为采用的是预训练方式，因此大模型的知识最多只能到训练开始的时间节点，之后产生的新的知识大模型无法获取。‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

其次，由于训练大模型的成本问题，导致很多企业无法承担大模型的训练成本，因此只能使用第三方的大模型，但第三方大模型没有在特定领域的数据上进行训练或微调，因此，其表现能力一般。‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

这时RAG就出现了，RAG中文是检索增强，是通过外挂知识库的方式，提问大模型之前先从向量数据库中查询数据，然后一起输入到大模型，这样大模型就相当于有了一个外部资料库，遇到不懂的问题就可以通过查资料的方式解决。‍‍‍‍‍‍‍

以目前的技术来说，RAG是大模型技术的一个重要节点，即是大模型能力范围的扩展，也是对大模型短板的补充。‍‍‍‍‍‍‍

微调与提示词工程

我们一般使用的大模型都是预训练模型，也就是用某些数据集训练过的模型；但这些模型一般情况下只会在特定领域表现出色，但如果用来解决自己的实际问题可能就不太好用了。‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

这时怎么让预训练模型在其它任务中表现更好就是一个值得思考的问题，而这就是微调与提示词工程存在的意义。‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

微调

微调从技术手段上来说和模型训练没有区别，只不过微调是在相似任务的预训练模型的基础之上，通过少量的数据对模型参数进行调整，使得其能够更加适应当前任务的一种方式。由于其成本低，对资金和技术要求要比完全重新设计和训练一款模型要低的多。‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

因此，微调存在的意义是为了节约成本和降低门槛，如果资金充足的情况下，根据任务需求设计并训练一款模型是最好的选择，微调是退而求其次的一种方式。‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

提示词工程

如果说微调是为了让大模型去适应特定的任务，那么提示词的作用就是怎么更好的使用一个大模型。‍‍‍‍‍‍‍‍‍

根据研究发现，对待同样的问题使用不同的提示词有时会得到完全不一样的效果，因此根据这一现象就提出了提示学习的方法，具体的可以看之前的问题——提示学习。‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

用人类来举例就是，假如有人问你吃饭了吗这种简单的问题，你可以下意识的回答，而且可以回答的很好；大模型也是如此，如果你问大模型很简单的问题，它也能回答的比较好。‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

但如果问到一些复杂的问题就需要更加准确的描述，比如说根据当前的就业环境，从经济，市场，贸易，国际局势等多个方面来分析一下产生当前情况的原因，以及后续的应对方法。‍‍‍‍‍‍‍‍‍‍‍‍‍

这种复杂的问题，不论是问人还是问大模型，你说的越准确，它回答的才能更好，这就是提示词存在的意义。‍

_智能体Agent_‍‍‍‍‍‍

在前面的描述中，神经网络架构讲的是怎么构建一个大模型，知识库是怎么补充和强化大模型，微调和提示词是怎么更好的使用大模型，那么智能体就是真正的使用大模型，研究大模型的具体应用。‍‍‍‍‍‍‍‍‍‍‍

如果把大模型比做人类的大脑，那么智能体就是大模型的手和脚。‍‍

在此之前使用大模型，我们能够让它回答问题，写文章，生成图片和视频，但这都是大模型天生具备的能力，就类似于人类可以写写画画一样。‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

但如果让大模型完成更加复杂的任务，这时就需要借助外部工具，比如外出旅行需要设计旅行路线，定酒店和车票等。‍‍‍‍‍‍

这种任务就完全超出大模型或者人类本身的能力圈，如果想完成这些任务就需要借助外部工具，比如说手机APP。‍‍‍‍‍‍‍‍‍‍‍‍‍

智能体就是大模型+外部工具实现的一种能够独自分析和解决复杂任务的一种载体，利用大模型的独立规划能力，让它根据自己的判断去调用外部工具完成任务。

使用的技术主要有function call，langchain等；如上图所示，大模型使用function call的方式调用外部工具，使用自身能力完成规划和行动，并且由于大模型没有足够的记忆能力，需要增加记忆模块来记录对复杂任务的分析过程。‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

目前，大模型解决复杂任务，主要通过思维链(CoT)的方式来实现对复杂问题的分解。‍‍‍‍‍‍‍‍‍‍‍‍‍

langchain是一种人工智能开发框架，它封装了大部分调用大模型的细节，以及其它辅助功能，比如文档的加载，多个大模型的链式调用，提示词模板的封装等，与其类似的还有LlamaIndex等。‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

总结

从大的方向上来说，大模型从技术到应用，主要涉及到以上几个大的模块；而每个模块又涉及到大量的技术和细节。比如打造不同任务的神经网络模型，强化学习，迁移学习，知识蒸馏，分布式训练与存储等；以及RAG使用的向量检索，向量数据库，语义理解等，还有复杂任务的思维链(CoT)，模型训练使用的LoRa等微调方法。‍‍‍‍‍‍‍‍‍‍‍‍

还有多模态模型中的知识对齐，数据融合等复杂技术。‍‍‍

因此，大模型技术到应用到学习是一个系统性的复杂过程，中间涉及到无数的技术细节和理论，并且还在不断的产生新的技术和理论。‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

千里之行，始于足下。‍‍‍‍‍‍‍‍‍‍‍

个人观点

AI大模型百花齐放百家争鸣的时代已经是现实了，不管你愿不愿意承认，AI时代已经到来了。与其在AI抢占就业机会的危机中患得患失，不如快点接受这个新技术，将AI引入自己的工作中，通过AI来提升自己的生产力和创造力。打不过就加入，不丢人。顺应时代还有一线生机，顽固不化故步自封只能被时代的洪流碾碎。

无论你是刚入行的产品新手，还是经验丰富的资深产品经理，在AI时代下都需要不断拓展自己的技能边界，才能在未来的竞争中立于不败之地。

①人工智能/大模型学习路线

②AI产品经理入门指南

③大模型方向必读书籍PDF版

④超详细海量大模型实战项目

⑤LLM大模型系统学习教程

⑥640套-AI大模型报告合集

⑦从0-1入门大模型教程视频

⑧AGI大模型技术公开课名额
因篇幅有限，仅展示部分资料，需要点击下方链接即可前往获取

******************************************************************************************************************2024最新版优快云大礼包：《AGI大模型学习资源包》免费分享

2.大模型的优势

大模型最大的优势在于其强大的功能和广泛的应用。有时候，研究人员或开发者的需求不仅仅是快速的运行速度，而是能够处理复杂问题的能力。对于很多挑战性的任务，使用大模型能够大大减轻程序设计的负担，从而显著提高项目的质量。其易用性和灵活性也能让新手迅速上手。

虽然大模型在底层运算上可能不如一些特定的算法快速，但大模型清晰的结构和强大的能力能够解放开发者的大量时间，同时也能方便地与其他技术（如传统机器学习算法）结合使用。

因此，从来没有一种技术能够像大模型这样同时深入到这么多领域，并且大模型支持跨平台操作，也支持开源，拥有丰富的预训练模型。尤其随着人工智能的持续火热，大模型 在学术界和工业界的关注度持续攀升，越来越多的技术爱好者、行业关注者也都开始学习和应用大模型。

3、大模型学习建议

在学习大模型的过程中，不要因为自己的基础薄弱或者之前没有接触过相关领域就想要放弃。记住，很多人在起跑线前就选择退出，但只要你沉下心来，愿意付出努力，就一定能够掌握。在学习的过程中，一定要亲自动手去实践，因为只有通过编写代码、实际操作，你才能够逐渐积累经验。

同时，遇到错误和挑战也是不可避免的，甚至可以说是学习的一部分。当你遇到错误时，学会利用各种资源去解决，比如搜索引擎、开源论坛、社区和学习群组，这些都是你提升学习能力的好帮手。如果实在找不到错误的解决办法，可以来公众号或者相关学习平台上寻求帮助。

接下来，我为你提供一份大模型学习路径的参考，包括：基础知识了解、理论学习、实践操作、专项深入、项目应用、拓展研究等步骤。你可以根据这个路径，结合自己的实际情况，制定合适的学习计划。

这里，我分享一些学习大模型的历程和技巧。我最初接触大模型是因为工作需要，那时大模型还没有像现在这样普及，资料也相对较少。但通过坚持学习，我也逐渐掌握了大模型的应用。以下是一些建议：

先从了解大模型的基础知识开始，可以通过阅读相关书籍、学术论文或者参加在线课程。
学习过程中不要只看理论知识，一定要动手实践。可以尝试使用一些开源的大模型框架，如TensorFlow、PyTorch等，进行实际操作。
在掌握基础理论后，可以尝试参与一些实际项目，比如数据分析、自然语言处理、图像识别等，将理论应用到实践中。遇到问题时不要害怕，要学会利用网络资源、开源社区和专业论坛寻求帮助。
不断深化学习，可以参加一些专业培训课程，或者深入研究最新的学术论文，保持对大模型领域的最新动态的了解。

学习路上没有捷径，只有坚持。但通过学习大模型，你可以不断提升自己的技术能力，开拓视野，甚至可能发现一些自己真正热爱的事业。最后，送给你一句话，希望能激励你在学习大模型的道路上不断前行：

If not now, when? If not me, who?
如果不是为了自己奋斗，又是为谁；如果不是现在奋斗，什么时候开始呢？

关于大模型技术储备

学好大模型不论是对就业还是开展副业赚钱都非常有利，但要想掌握大模型技术，还是需要有一个明确的学习规划。这里，我为大家分享一份完整的大模型学习资料，希望能帮助那些想要学习大模型的小伙伴们。

AI大模型入门基础教程

第1章快速上手：人工智能演进与大模型崛起

1.1 从AI到AIOps
1.2 人工智能与通用人工智能
1.3 GPT模型的发展历程

第2章大语言模型基础

2.1 Transformer 模型

嵌入表示层
注意力层
前馈层
残差连接与层归一化
编码器和解码器结构

2.2 生成式预训练语言模型 GPT

无监督预训练
有监督下游任务微调
基于 HuggingFace 的预训练语言模型实践

2.3 大语言模型结构

LLaMA 的模型结构
注意力机制优化

因篇幅有限，仅展示部分资料，需要点击下方链接即可前往获取

******************************************************************************************************************2024最新版优快云大礼包：《AGI大模型学习资源包》免费分享

第3章大语言模型基础

3.1 数据来源

通用数据
专业数据

3.2 数据处理

低质过滤
冗余去除
隐私消除
词元切分

3.3 数据影响分析

数据规模影响
数据质量影响
数据多样性影响

3.4 开源数据集合

Pile
ROOTS
RefinedWeb
SlimPajama

因篇幅有限，仅展示部分资料，需要点击下方链接即可前往获取

******************************************************************************************************************2024最新版优快云大礼包：《AGI大模型学习资源包》免费分享

第4章分布式训练

4.1 分布式训练概述
4.2 分布式训练并行策略

数据并行
模型并行
混合并行
计算设备内存优化

4.3 分布式训练的集群架构

高性能计算集群硬件组成
参数服务器架构
去中心化架构

4.4 DeepSpeed 实践

基础概念
LLaMA 分布式训练实践

因篇幅有限，仅展示部分资料，需要点击下方链接即可前往获取

******************************************************************************************************************2024最新版优快云大礼包：《AGI大模型学习资源包》免费分享

第5章有监督微调

5.1 提示学习和语境学习

提示学习
语境学习

5.2 高效模型微调

LoRA
LoRA 的变体

5.3 模型上下文窗口扩展

具有外推能力的位置编码
插值法

5.4 指令数据构建

手动构建指令
自动生成指令
开源指令数据集

5.5 Deepspeed-Chat SFT 实践

代码结构
数据预处理
自定义模型
模型训练
模型推

第6章强化学习

6.1 基于人类反馈的强化学习
6.2 奖励模型
6.3 近端策略优化
6.4 MOSS-RLHF 实践

第7章大语言模型应用

7.1 推理规划
7.2 综合应用框架
7.3 智能代理
7.4 多模态大模型
7.5 大语言模型推理优化

第8章大语言模型评估

8.1 模型评估概述
8.2 大语言模型评估体系
8.3 大语言模型评估方法
8.4 大语言模型评估实践

因篇幅有限，仅展示部分资料，需要点击下方链接即可前往获取

******************************************************************************************************************2024最新版优快云大礼包：《AGI大模型学习资源包》免费分享

总结

坚持到了这儿，恭喜你，表示你有做AI大模型工程师的潜力。其实我想说的上面的内容只是冰山一角，刚开始大家不需要多么精通了解这些内容。主要是不断练习，让自己跳出「舒适区」，进入「学习区」，但是又不进入「恐慌区」，不断给自己「喂招」。

记住，学习是一个持续的过程。大模型技术日新月异，每天都有新的研究成果和技术突破。要保持对知识的渴望，不断学习最新的技术和算法。同时，实践是检验学习成果的最佳方式。通过实际项目实践，你将能够将理论知识转化为实际能力，不断提升自己的技术实力。

最后，不要忘记与同行交流和学习。AI大模型领域有许多优秀的专家和社区，他们可以为你提供宝贵的指导和建议。参加技术交流会、阅读论文、加入专业论坛，这些都是提升自己技术水平的好方法。

祝愿你在AI大模型的学习之旅中取得丰硕的成果，开启属于你的AI大模型时代！

作为一名热心肠的互联网老兵，我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。

但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的 AI大模型资料 包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

😝有需要的小伙伴，可以V扫描下方二维码免费领取🆓

一、全套AGI大模型学习路线

AI大模型时代的学习之旅：从基础到前沿，掌握人工智能的核心技能！

二、640套AI大模型报告合集

这套包含640份报告的合集，涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师，还是对AI大模型感兴趣的爱好者，这套报告合集都将为您提供宝贵的信息和启示。

三、AI大模型经典PDF籍

随着人工智能技术的飞速发展，AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型，如GPT-3、BERT、XLNet等，以其强大的语言理解和生成能力，正在改变我们对人工智能的认识。那以下这些PDF籍就是非常不错的学习资源。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

四、AI大模型商业化落地方案

阶段1：AI大模型时代的基础理解

目标：了解AI大模型的基本概念、发展历程和核心原理。
内容：
- L1.1 人工智能简述与大模型起源
- L1.2 大模型与通用人工智能
- L1.3 GPT模型的发展历程
- L1.4 模型工程
  - L1.4.1 知识大模型
  - L1.4.2 生产大模型
  - L1.4.3 模型工程方法论
  - L1.4.4 模型工程实践
- L1.5 GPT应用案例

阶段2：AI大模型API应用开发工程

目标：掌握AI大模型API的使用和开发，以及相关的编程技能。
内容：
- L2.1 API接口
  - L2.1.1 OpenAI API接口
  - L2.1.2 Python接口接入
  - L2.1.3 BOT工具类框架
  - L2.1.4 代码示例
- L2.2 Prompt框架
  - L2.2.1 什么是Prompt
  - L2.2.2 Prompt框架应用现状
  - L2.2.3 基于GPTAS的Prompt框架
  - L2.2.4 Prompt框架与Thought
  - L2.2.5 Prompt框架与提示词
- L2.3 流水线工程
  - L2.3.1 流水线工程的概念
  - L2.3.2 流水线工程的优点
  - L2.3.3 流水线工程的应用
- L2.4 总结与展望

阶段3：AI大模型应用架构实践

目标：深入理解AI大模型的应用架构，并能够进行私有化部署。
内容：
- L3.1 Agent模型框架
  - L3.1.1 Agent模型框架的设计理念
  - L3.1.2 Agent模型框架的核心组件
  - L3.1.3 Agent模型框架的实现细节
- L3.2 MetaGPT
  - L3.2.1 MetaGPT的基本概念
  - L3.2.2 MetaGPT的工作原理
  - L3.2.3 MetaGPT的应用场景
- L3.3 ChatGLM
  - L3.3.1 ChatGLM的特点
  - L3.3.2 ChatGLM的开发环境
  - L3.3.3 ChatGLM的使用示例
- L3.4 LLAMA
  - L3.4.1 LLAMA的特点
  - L3.4.2 LLAMA的开发环境
  - L3.4.3 LLAMA的使用示例
- L3.5 其他大模型介绍