AI大模型发展历程探秘：DeepSeek技术溯源，深入解析底层逻辑与技术细节！

最新推荐文章于 2025-11-20 11:16:41 发布

原创最新推荐文章于 2025-11-20 11:16:41 发布 · 1k 阅读

12 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #大模型 #产品经理 #程序员 #AI #大模型教学 #大模型课程

随着Deepseek年初的爆火，短短四个月时间，AI大模型的使用频率越来越多，受众也越来越广泛，并延伸到各个行业的不同年龄群体：小学生写作文、中学生解答数学题、大学生毕业设计、职场人日常办公、VLOG博主制作短视频……

最近，看到不少非计算机专业朋友反映的问题：

“市面上这么多AI大模型，到底哪家强？”

“经常听一些大模型赋能行业的讲座，内容涉及到的专业名词，如：Transformer、LLM、Embedding都是什么意思，能否可以通俗的解释下？”

为了帮大家更好地理解大模型、使用大模型，下面通过一些类比方法，并结合个人体会，详细梳理下AI大模型底层逻辑和技术，希望能让大家通俗来理解。

文章包含6881字，阅读约15分钟。

一、大语言模型（Large Language Modeling，LLM）

语言模型是计算机发展最早的一种技术形态，它的终极目标是：对于任意的词序列，计算出这个序列是一句话的概率。

其实，我们每天都和语言模型打交道：

那么，如何让计算机理解人类语言呢？

—— 编码

早期，计算机采用二进制编码，因此对单词和文字的分类变量编码方法采用One-hot Encoding（独热编码），简单来说，就是通过0-1二元编码方式，对每个单词/汉字加以区分，且每个编码只有1个1；

这种编码方法存在两个明显的缺点：

高维稀疏性：当分类变量的类别数量（基数）很大时，One-hot编码会生成大量新特征。例如，一个有1000个类别的变量会被转换为1000维的稀疏矩阵。高维数据会增加内存占用和计算时间，尤其是在处理大规模数据集时。由此，导致了计算效率低。

忽略类别间的关系：One-hot编码将每个类别视为独立的二元特征，无法捕捉类别之间的潜在关系。例如，苹果、香蕉、橘子，都属于水果的关联性。

因此，就出现了单词向量化（Word Embedding）——用一个低维的词向量表示一个词，能使距离相近的向量对应的物体有相近的含义；

比如：判别是否能在水中游泳的列向量，鲸鱼、海豚、企鹅的向量值相近，且接近于1），区别于不会游泳的鹦鹉（接近于0）；

同理，判别是否可以飞翔的列向量，鹦鹉的向量值接近于1，而其他动物则赋值较低。

通过这种编码方式，就可以将不同单词存储在一个高维的向量空间，在向量空间中，相近的单词具有更高的关联性；

Word Embedding也是当前大模型的主流编码方法，一个20维的向量用one-hot和word embedding的方法，前者只能表示20个单词，而后者通常可以表示几千甚至上万个！维度越高，单词在向量空间划分的越细致，其内涵也越丰富；（将单词看做一个人，可以理解为每个人都可以被赋予成百上千个标签属性）。

当前，部署AI大模型时，经常看到的“嵌入模型”，就是基于Embedding技术方法；

特别是针对大量学习资料的大模型部署，通过嵌入模型的编码，对用户提问解码固定到一个确定的向量空间位置，即可快速在向量空间内检索到与之相近的核心资料，再进行作答。

到这里，有人可能会问：向量化可以看做将单词分类，那它又是如何理解不同单词的含义呢？

—— 做“完形填空”

结合句子语境我们可以猜测：tezgüino是一种由玉米制作的酒精类饮料；

通过让计算机做“完形填空”，便可以让计算机理解人类语言，并通过判断给出概率最高的答案。

语言模型的技术演化，经历了三个阶段：基于统计的N-gram:、基于神经网络的LSTM/GRU和Transformer。

阶段1：基于统计的N-gram:（1970 after）

N-gram如同一个「词语联想的猜谜游戏」。它通过统计历史文本中词组的出现频率（例如“小猫抓老鼠”拆解为“小→猫→抓→老→鼠”的组合概率），预测下一个词该填什么。

·马尔可夫假设：像拼图时只看前几块的颜色，忽略更远的图案（例如2-gram只参考前一个词）；

·数据稀疏性：若遇到生僻组合（如“猫抓大象”），就像拼图缺了一块，只能靠“平滑技术”强行估算。

特点：简单直接但笨拙，可以看做用纸质词典查词，适合早期语音识别和简单翻译。

阶段2：基于神经网络的LSTM/GRU (2000 after)

LSTM/GRU模型用循环神经网络（RNN）处理序列，引入门控机制（遗忘门、输入门、输出门）缓解梯度消失。它如同一个「带记忆笔记本的作家」，用RNN逐字阅读句子，并通过门控机制决定记住或忘记哪些信息。

·遗忘门：像用荧光笔划掉日记中不重要的内容（例如忘记“今天天气晴”中的“晴”）；

·LSTM：通过细胞状态长期记忆上下文（如句子主题）；

·GRU：简化版LSTM，合并门控参数，提升训练效率；

·记忆细胞：像在笔记本上长期记录故事主线（如“主角是侦探”），避免遗忘开头。

特点：能处理长句子，但写日记必须一字一句来（无法并行），速度较慢，曾用于早期智能助手和文本生成。

N-gram →神经网络：

突破：从统计表驱动转向参数化模型，引入分布式语义表示。

应用：机器翻译（如早期Google Translate）、文本生成。

阶段3：Transformer (2017 after)

Transformer模型完全依赖自注意力机制（Self-Attention），并行处理全序列。如同一个「同时指挥整个乐团的作曲家」。它抛弃逐字处理，用自注意力机制让每个词瞬间与全文对话。

·多头注意力（Multi-Head Attention）：从不同子空间捕捉多样依赖关系。像多个乐手分工合作，有人听旋律，有人看节奏，综合所有信息演奏。

·位置编码（Positional Encoding）：为无顺序的注意力机制注入位置信息。像给乐谱加上页码，让模型知道“第一小节”和“最后一小节”的位置关系。

·残差连接（Add & Norm）：稳定深层网络训练。像在乐谱间架设高速公路，确保深层网络的信息流畅传递。

特点：并行处理整段文本，支撑了Deepseek、ChatGPT等AI大模型。

LSTM/GRU → Transformer：

突破：从序列串行计算转向全序列并行，支撑大规模预训练。

应用：BERT（双向编码）、GPT系列（自回归生成）、多模态模型。

语言模型的三个发展阶段，从局部统计到全局神经网络，再到并行化自注意力的三次跃迁。每一代模型都在处理效率、语义理解和长文本建模上实现突破，最终推动AIGC技术的爆发式发展。

毫不夸张的说，Transformer就是大语言模型的基石！

二、Transformer

自2017年，Google研究团队在NIPS上发表的里程碑论文《Attention Is All You Need》，彻底改变了自然语言处理的格局。这篇论文的核心贡献是首次提出了Transformer模型，一种完全依赖注意力机制（Attention）的架构，摒弃了传统的循环神经网络（RNN）和卷积神经网络（CNN），目前引用量超过15万+，成为21世纪最具影响力论文，并被纳入NeurIPS/ACL/ICML等顶会“史上最具影响力论文”榜单。

在理解语言任务时，注意力机制本质上是捕捉单词间的关系；

以第二句话为例：eating和apple、green和apple是两组强相关词汇，而eating和green是一组弱相关词汇。

在理解图像任务时，注意力机制本质上是一种图像特征抽取；

以上图为例，注意力机制是通过类似素描方法（Sketch）提取图像的轮廓特征，再通过梯度方法（Gradient）利用明暗变化强化边缘信息；

这两种方法分别模拟了注意力机制在特征抽取中的两种关键能力——前者像用画笔勾勒结构本质，剥离冗余信息，后者如同放大镜聚焦局部差异，凸显关键区域；

这种从复杂原图中动态筛选和强化核心特征的逻辑，正是注意力机制在计算机视觉中的本质：它不依赖完整解析所有像素，而是模仿人类视觉的「选择性关注」，从纷繁背景中捕捉语义主干，让模型学会「看重点」。

再来说说Transformer的训练机制，训练的流程如下：

这里面涉及了Attention论文中最核心的公式：

我们假设一个场景：你在图书馆想找一本关于“机器学习基础”的书；

Query变量的含义是描述要找的书（如：需要一本涵盖概率论和代码实践的机器学习教材）；Key变量的含义是书的索引编号，图书管理员给图书高效编码（如：TP181.C66对应机器学习分类）；而Value变量则表示内容的抽取（如书中讲解梯度下降的章节）

对应NLP（自然语言处理）任务：模型需要理解句子中每个词（“How are you doing?”）的语义，并找到词与词之间的关联。

Transformer模型提出后，大模型迎来了突破性进展，机器学习的范式发生了变化，开始逐渐转向深度学习，并进入了预训练时代，强调训练数据规模和质量的重要性，即「大力出奇迹」：投喂大量的数据，模型的理解能力会有显著提升。

下图对几种早期机器学习和深度学习模型的识别精度进行了比较，可以看到：当投喂的数据量超过10^22时，大模型突然“开窍了”！

研究发现，当模型参数规模达到某个临界点时，模型会突然展现出之前不具备的能力，比如解决复杂的数学问题或进行多步骤的逻辑推理，这种现象也被称为「涌现」（Emergence）。

基于Transformer架构，大模型的发展出现了两种技术路径：

以Google AI为代表的BERT（Bidirectional Encoder Representations from Transformers）技术路径，2018年10月由Jacob Devlin等人在论文《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》中首次提出；

以OpenAI为代表的GPT（Generative Pre-trained Transformer）技术路径，2018年6月Alec Radford和Ilya Sutskever（OpenAI联合创始人，深度学习先驱）等人在论文《Improving Language Understanding by Generative Pre-training》中提出初代GPT，截至目前已迭代至GPT-4。

下表对比了两种技术路线的区别，简单来说：BERT更像是「理解专家」，它的技术从双向理解文本，强调“倒背如流”的重要性。这种训练让它擅长理解语义，比如判断两个句子是否相关，或者从文章中提取答案。但缺点是无法直接写文章——就像学霸会做题，但未必会写小说。

而GPT更像是「创作达人」，它在写作文时只能按顺序一个个字往下编（单向），每次只根据已写的内容预测下一个词。这种训练让它能生成流畅的对话或故事，比如你问“如何做蛋糕？”，它能一步步编出配方。但缺点是容易“偏题”——如果开头写错，后面可能一路跑偏。

时至今日，BERT和GPT系列仍是两大主流AI大模型，基于它们的技术路径，而后陆续出现了很多衍生模型，但两者的应用场景和影响力已发生显著分化。GPT侧重C端产品，而BERT则提供B端服务；许多企业用BERT处理信息抽取，再用GPT生成总结报告，实现“理解+生成”闭环。

对于海量数据的预训练过程，靠人工是无法完成的，于是学者提出了自监督学习；

Masked Langauge Modeling（MLM）模型就是一种文本自监督学习方法，目前广泛应用于自然语言处理（NLP）中，尤其在BERT预训练模型中扮演核心角色。其核心思想是通过遮盖文本中的部分内容，让模型学习预测被遮盖的部分，从而理解语言的上下文关系和语义表示。

对于图像预训练方法的，在这里不得不提到我国著名人工智能领域专家何恺明教授，其团队在2021年11月发表的论文《Masked Autoencoders Are Scalable Vision Learners》（NeurIPS 2021），首次提出了Masked Autoencoders（MAE），成为计算机视觉领域自监督学习的里程碑。

该研究通过引入高比例掩码自编码架构（MAE），成功克服了传统视觉模型中高掩码率导致特征表征失效的瓶颈问题，将有效掩码率从自然语言处理领域的15%提升至75%以上。实验表明，仅使用25%的可见图像块进行训练，MAE在ImageNet-1K数据集微调后仍能达到87.8%的top-1分类准确率，这一突破性进展有力回应了学术界对“高掩码率破坏图像语义连续性”的理论性质疑，为视觉自监督学习开辟了新范式。

打开谷歌学术搜索Kaiming He，显示的数字是“703523”，这是何恺明教授的论文引用量，在整个人工智能学界，排名第三，仅次于被誉为“深度学习之父”的两位元老级前辈——Yoshua Bengio和Geoffrey Hinton。

那么，训练Transformer的通用之力是什么？

——数据、模型、算力

数据是燃料、模型是引擎、算力是加速器！

大数据、大模型、大算力下，“共生则关联”原则实现了统计关联关系的挖掘。

以早期的ChatGPT 3模型的预训练为例：

数据：训练中使用了45TB数据、近1万亿个单词（约1351万本牛津词典所包含单词数量）以及数十亿行源代码。

模型：包含了1750亿参数，将这些参数全部打印在A4纸张上，一张一张叠加后，叠加高度将超过上海中心大厦632米高度。

算力：ChatGPT的训练门槛是1万张英伟达V100芯片、约10亿人民币。

说到这里，不得不提一下英伟达，2025年的英伟达的全球市值高达1.2万亿美元，是AI算力领域绝对统治者，2024年最高点曾超过3.7万亿美元，一度超过微软和苹果，登顶全球市值最高公司；

据《纽约时报》报道，2005年时任英特尔CEO的Paul Otellini曾提出以20亿美元收购当时尚不出名的GPU公司英伟达，但在英特尔董事会的反对下，这场收购计划最终以失败告终；

如今CPU市场日暮西山，英特尔市值已经跌破1000亿美元大关，仅是英伟达的1/13，不禁让人唏嘘。

回到正题，再梳理一下当前大模型发展脉络。

以大模型（Large Model）为核心，向下延伸出三大分支——大语言模型（LLM）、多模态大模型（LMM）和科学计算模型（Science Model）。

大语言模型聚焦文本智能，分为BERT系列（如Google Bard、文心一言）与GPT系列（涵盖GPT-3.5/4、GPT-4o/o1/o3及中国团队的DeepSeek-v3/R1），展现从基础理解到生成式对话的技术跃迁；

多模态大模型突破单模态局限，通过DDPM技术路径（如DALL·E3、Midjourney、Sora）实现文生图/视频，借助SAM模型的交互式分割能力赋能工业与医疗；

科学计算模型则探索AI与硬核科学的融合，既有Alpha系列（AlphaGo围棋博弈、AlphaStar游戏策略、AlphaFold蛋白质预测）在复杂系统建模中的突破，也有PanguLM在气象预测与药物研发中的实用化成果。

三、ChatGPT

前文提到基于Transformer架构，大模型出现了“涌现”能力，最早是从GPT-3模型开始，也正是从这时起，人们才真正开始关注大语言模型的能力价值所在。

如今，OpenAI虽然没有开源，但其每年发布的技术白皮书仍是行业的风向标，蕴藏着非常有价值的技术细节。

GPT-3 Initial（通过大规模预训练，初代GPT-3展示了三个重要能力）

语言生成：来自语言建模的训练目标（说人话）；

世界知识：来自3000亿单词的训练语料库（百晓生）；

上下文学习：上下文学习可以泛化，仍然难以溯源（触类旁通）。

初代GPT-3表面看起来很弱，但有非常强的潜力，展示出极为强大的“涌现”能力。

2020-2021年，OpenAI投入了大量的精力通过代码训练和指令微调来增强GPT-3。

Codex Initial（思维链）

使用思维链进行复杂推理的能力是代码训练的一个神奇副产物；

InstructGPT Initial（指令微调）

使用指令微调将GPT-3.5的分化到不同的技能树（数学家/程序员/…）。

Code-davinci-002（人类对齐）

指令微调牺牲性能换取与人类对齐（“对齐税”）

2022.11月，RLHF（基于人类反馈的强化学习的指令微调）

翔实的回应、公正的回应、拒绝不当问题、拒绝其知识范围之外的问题。

随着大模型技术的进步成熟，终于在2022年11月30日，OpenAI首席执行官Sam Altman通过推特正式发布ChatGPT；

后来，业内将这一天称之为「人工智能的IPHONE时刻」。ChatGPT模型基于GPT-3.5架构，支持对话交互，产品一经发出，迅速火爆全网，短短5天用户破百万，两个月用户破亿！（此前TikTok需9个月、Instagram需2.5年）。

随着多模态大模型的技术突破，OpenAI陆续发布了GPT-4、GPT-4o模型。

2023年6月，GPT-4模型发布，大模型从“听、说”，到“看”。

2024年6月，GPT-4o模型的发布，再次震撼业界，其能力已经达到了文科博士生的水平。

3个月后，2024年9月，GPT-o1模型发布，相比于GPT-4o，大模型的推理能力得到大幅提升，能力达到了理科博士生的水平，即使是高数题，也能迎刃而解。

四、DeepSeek

就在大家觉得，这场AI大模型的竞赛，美国将遥遥领先之时，2025年初，随着DeepSeek震撼的发布而打破！

2025年1月15日，杭州深度求索公司梁文锋团队推出了DeepSeek，上线两周下载量超1.1亿次，周活跃用户峰值达9700万。

1月27日，发布的DeepSeek-R1模型，在数学和编程测试中比肩GPT-o1，成本仅为后者的几十分之一！

根据OpenAI最新15页报告，DeepSeek缩小了中美AI差距；同时，DeepSeek也以一己之力改变了开源和闭源的力量对比，从6~12个月的代差缩短到1~3个月。

客观来说，DeepSeek模型并非是颠覆性基础理论创新，依然是Transformer-based；

其最大的贡献是对算法、模型和系统等进行的系统级协同工程创新，打破了大语言模型以大算力为核心的预期天花板，为受限资源下探索通用人工智能开辟了新的道路。

DeepSeek大模型，按阶段可细分为4种类型：

ŸStep 1:DeepSeek-V3 Base（基础生成模型）

ŸStep 2: DeepSeek-R1-Zero（推理模型初试）

ŸStep 3: DeepSeek-R1（推理横型大成）

ŸStep 4: DeepSeek-R1-Distill（R1蒸馏小模型）

DeepSeek-V3 Base对标GPT-4o（文科博士生）：

混合专家模型：创新提出了“算法蒸馏”的概念，V3基座模型总共有6710亿参数，但是每次token仅激活8个专家、370亿参数（约5.5%），大大提高了响应速度。

极致的工程优化：多头潜在注意力机制(MLA)，使用FP8混合精度，DualPipe算法提升训练效率，将训练效率优化到极致，显存占用为其他模型的5%-13%。

DeepSeek-R1-Zero赋予DeepSeek-V3最基础的推理能力：

R1-Zero使用DeepSeek-V3-Base作为基础模型，直接使用GRPO进行强化学习来提升模型的推理性能，模型包括：准确度奖励（Accuracy rewards）、格式奖励（Format rewards）。

上图是DeepSeek-R1-Zero推理模型的训练框架，融合数据驱动与知识引导的双重策略——SFT（监督微调）利用人工标注显式编码知识，RLHF（人类反馈强化学习）引入偏好数据优化对齐，GRPO（规则抽象强化学习）将专家经验转化为0/1奖励规则，形成“人工标注修正基础能力+强化学习激发高阶推理”的协同训练范式，最终构建出兼顾准确性、逻辑性与可解释性的通用推理智能体。

DeepSeek-R1对标OpenAI-o1（理科博士生）：

阶段1：DeepSeek-R1-Zero生成少量推理数据+SFT =>为V3植入初步推理能力（冷启动）

阶段2：根据规则奖励直接进行强化学习（GRPO）训练=>提升推理能力（多轮迭代，获取大量推理数据）

阶段3：迭代生成推理/非推理样本微调=>增强全场景能力

阶段4：全场景强化学习=>人类偏好对齐（RLHF）

DeepSeek-R1-Distill模型：（与DS-R1模型相比，像老师与学生的关系）：

（1）基于各个低参数量通用模型（千问、Llama等）；

（2）使用DeepSeek-R1同款数据微调；

（3）大幅提升低参数量模型性能，（671亿→7亿参数），手机也能跑AI。

DeepSeek-R1-Distill模型对知识进行蒸馏，就像老师教学生“解题思路”，不仅给答案（硬标签），还教“为什么”（软标签）。

结语：AI大模型的发展，既是技术的跃迁，更是人类智慧的延伸。从DeepSeek的崛起到全球开源社区的繁荣，我们见证了一个更开放、更智能的时代正在到来。未来，AI将不仅是工具，而是成为人类探索未知、实现普惠的伙伴。让我们以技术为舟、以合作为桨，共同驶向智能时代的星辰大海！

一、大模型风口已至：月薪30K+的AI岗正在批量诞生

2025年大模型应用呈现爆发式增长，根据工信部最新数据：

国内大模型相关岗位缺口达47万

初级工程师平均薪资28K

70%企业存在"能用模型不会调优"的痛点

真实案例：某二本机械专业学员，通过4个月系统学习，成功拿到某AI医疗公司大模型优化岗offer，薪资直接翻3倍！

二、如何学习大模型 AI ？

🔥AI取代的不是人类，而是不会用AI的人！麦肯锡最新报告显示：掌握AI工具的从业者生产效率提升47%，薪资溢价达34%！🚀

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

1️⃣ 提示词工程：把ChatGPT从玩具变成生产工具
2️⃣ RAG系统：让大模型精准输出行业知识
3️⃣ 智能体开发：用AutoGPT打造24小时数字员工

📦熬了三个大夜整理的《AI进化工具包》送你：
✔️ 大厂内部LLM落地手册（含58个真实案例）
✔️ 提示词设计模板库（覆盖12大应用场景）
✔️ 私藏学习路径图（0基础到项目实战仅需90天）

第一阶段（10天）：初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识，对大模型 AI 的理解超过 95% 的人，可以在相关讨论时发表高级、不跟风、又接地气的见解，别人只会和 AI 聊天，而你能调教 AI，并能用代码将大模型和业务衔接。

* 大模型 AI 能干什么？
* 大模型是怎样获得「智能」的？
* 用好 AI 的核心心法
* 大模型应用业务架构
* 大模型应用技术架构
* 代码示例：向 GPT-3.5 灌入新知识
* 提示工程的意义和核心思想
* Prompt 典型构成
* 指令调优方法论
* 思维链和思维树
* Prompt 攻击和防范
* …

第二阶段（30天）：高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习，学会构造私有知识库，扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架，抓住最新的技术进展，适合 Python 和 JavaScript 程序员。

* 为什么要做 RAG
* 搭建一个简单的 ChatPDF
* 检索的基础概念
* 什么是向量表示（Embeddings）
* 向量数据库与向量检索
* 基于向量检索的 RAG
* 搭建 RAG 系统的扩展知识
* 混合检索与 RAG-Fusion 简介
* 向量模型本地部署
* …

第三阶段（30天）：模型训练

恭喜你，如果学到这里，你基本可以找到一份大模型 AI相关的工作，自己也能训练 GPT 了！通过微调，训练自己的垂直大模型，能独立训练开源多模态大模型，掌握更多技术方案。

到此为止，大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗？

* 为什么要做 RAG
* 什么是模型
* 什么是模型训练
* 求解器 & 损失函数简介
* 小实验2：手写一个简单的神经网络并训练它
* 什么是训练/预训练/微调/轻量化微调
* Transformer结构简介
* 轻量化微调
* 实验数据集的构建
* …

第四阶段（20天）：商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知，可以在云端和本地等多种环境下部署大模型，找到适合自己的项目/创业方向，做一名被 AI 武装的产品经理。

* 硬件选型
* 带你了解全球大模型
* 使用国产大模型服务
* 搭建 OpenAI 代理
* 热身：基于阿里云 PAI 部署 Stable Diffusion
* 在本地计算机运行大模型
* 大模型的私有化部署
* 基于 vLLM 部署大模型
* 案例：如何优雅地在阿里云私有部署开源大模型
* 部署一套开源 LLM 项目
* 内容安全
* 互联网信息服务算法备案
* …

学习是一个过程，只要学习就会有挑战。天道酬勤，你越努力，就会成为越优秀的自己。

如果你能在15天内完成所有的任务，那你堪称天才。然而，如果你能完成 60-70% 的内容，你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传优快云，朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【保证100%免费】