模型架构与基础概念
1. LLM(大语言模型, Large Language Model): 基于海量文本数据训练的深度学习模型,如GPT系列、BERT等,能够理解和生成自然语言文本,能够进行复杂对话、文本创作等任务。
2. AGI(通用人工智能, Artificial General Intelligence): 这是AI研究的理想目标,追求创造能像人类一样学习新技能、解决广泛问题的智能体,目前仍处于理论探索和初步实践阶段。
3. AIGC (人工智能生成内容): 利用AI技术生成的各种内容,从文本、图像到视频,利用算法创造新颖、个性化的内容,如AI艺术画作或定制文章。
4. Prompt(提示词): 在AI大模型中用于引导模型生成特定类型输出的上下文信息或指令,例如,告诉模型“写一篇科幻故事”。
5. 提示工程(Prompt Engineering): 设计和优化输入提示以获得所需模型输出的过程,涉及精心设计输入提示,以优化模型输出的准确性、创意或特定风格,是提高AI大模型响应质量的关键策略。
6. 多模态(Multimodal): 文本、图像、音频等都是一种模态,多模态指能够处理文本、图像、音频等多种类型数据的模型,实现对多模态信息的综合理解和分析。
7. 推理(Inference): 大模型的推理(Inference)是指使用已经训练好的模型进行实际应用,生成预测或输出结果的过程。例如:大模型根据问题生成答案,根据文本描述生成图片等。
8. 涌现(Emergence): 指的是系统中新的性质、模式或行为在更简单的组件相互作用下自发形成的现象。
9. 对齐: AI价值对齐是指让大模型的能力和行为跟人类的价值、真实意图和伦理原则相一致,确保人类与人工智能协作过程中的安全与信任。
10. Token: 通常指的是文本或数据中的一个基本单元或符号,在自然语言处理中,单词是最常见的 token。例如,“你好,世界!”会被分解为“你”、“好”、“,”、“世界”和“!”这样的token,便于机器理解和处理。
11. 智能体(Agent): 在环境中感知、思考并采取行动的自主AI系统。参见:AI智能体的6种形态
12. 世界模型: 指AI系统内部构建的对现实世界的抽象认知模型,用于预测、规划和决策,是实现高级人工智能的关键组成部分。
13. Scaling Law: 指的是在机器学习中,模型性能随其规模增大(如参数数量、数据量)而提高的现象,是指导模型设计和资源分配的重要原则。
14. 大模型幻觉: 幻觉是指大型语言模型生成的内容看似合理但实际上不准确或虚构的信息。原因是尽管模型可以生成符合语言结构的文本,但它们并不具备真正的理解能力,只是基于概率生成下一个词语。
15. Copilot: AI辅助工具的代名词,例如Github Copilot能够辅助程序员编程,Office Copilot能够辅助编写文档、制作PPT等。
16. 具身智能: 拥有物理实体的智能体(如机器人),通过与环境的互动学习和适应,实现更接近生物体的智能表现。
大模型面试题
-
目前 主流的开源模型体系 有哪些?
-
prefix LM 和 causal LM 区别是什么?
-
涌现能力是啥原因?
-
大模型LLM的架构介绍?大模型(LLMs)进阶面
-
llama 输入句子长度理论上可以无限长吗?
-
什么是 LLMs 复读机问题?
-
为什么会出现 LLMs 复读机问题?
-
如何缓解 LLMs 复读机问题?
-
LLMs 复读机问题
-
llama 系列问题
-
什么情况用Bert模型,什么情况用LLaMA、ChatGLM类大模型,咋选?
-
各个专业领域是否需要各自的大模型来服务?
-
如何让大模型处理更长的文本?大模型(LLMs)微调面
-
如果想要在某个模型基础上做全参数微调,究竟需要多少显存?
-
为什么SFT之后感觉LLM傻了?
-
SFT 指令微调数据 如何构建?
-
领域模型Continue PreTrain 数据选取?
-
领域数据训练后,通用能力往往会有所下降,如何缓解模型遗忘通用能力?
-
领域模型Continue PreTrain ,如何 让模型在预训练过程中就学习到更多的知识?
-
进行SFT操作的时候,基座模型选用Chat还是Base?
-
领域模型微调 指令&数据输入格式 要求?
-
领域模型微调 领域评测集 构建?
-
领域模型词表扩增是不是有必要的?
-
如何训练自己的大模型?
-
训练中文大模型有啥经验?
-
指令微调的好处?
-
预训练和微调哪个阶段注入知识的?
-
想让模型学习某个领域或行业的知识,是应该预训练还是应该微调?
-
多轮对话任务如何微调模型?
-
微调后的模型出现能力劣化,灾难性遗忘是怎么回事?
-
微调模型需要多大显存?
-
大模型LLM进行SFT操作的时候在学习什么?
-
预训练和SFT操作有什么不同
-
样本量规模增大,训练出现OOM错
-
大模型LLM进行SFT 如何对样本进行优化?
-
模型参数迭代实验 大模型(LLMs)langchain面
-
基于LLM+向量库的文档对话 基础面
-
基于LLM+向量库的文档对话 优化面
-
基于LLM+向量库的文档对话 工程示例面
-
LLMs 存在模型幻觉问题,请问如何处理?
-
基于LLM+向量库的文档对话 思路是怎么样?
-
基于LLM+向量库的文档对话 核心技术是什么?
-
基于LLM+向量库的文档对话 prompt 模板 如何构建?
-
痛点1:文档切分粒度不好把控,既担心噪声太多又担心语义信息丢失
-
痛点2:在基于垂直领域 表现不佳
-
痛点3:langchain 内置 问答分句效果不佳问题
-
痛点4:如何 尽可能召回与query相关的Document 问题
-
痛点5:如何让LLM基于query和context得到高质量的response
-
避坑记录
-
本地知识库问答系统(Langchain-chatGLM)
-
什么是 LangChain?
-
LangChain 包含哪些 核心概念?
-
什么是 LangChain Agent?
-
如何使用 LangChain ?
-
LangChain 支持哪些功能?
-
什么是 LangChain model?
-
LangChain 包含哪些特点?
-
LangChain 如何使用?
-
LangChain 存在哪些问题及方法方案?
-
LoRA权重是否可以合入原模型?
-
ChatGLM-6B LoRA后的权重多大?
-
LoRA 微调优点是什么?
-
LoRA微调方法为啥能加速训练?
-
如何在已有LoRA模型上继续训练?
-
微调方法批处理大小模式GPU显存速度?
-
Peft 和 全量微调区别?
-
多种不同的高效微调方法对比
-
当前高效微调技术存在的一些问题
-
高效微调技术最佳实践
-
PEFT 存在问题?
-
能不能总结一下各种参数高效微调方法?
训练方法与技术
训练数据集: 大模型训练所需的大规模数据集,包含了各种语言样本,用于模型的学习、验证和测试其性能。它不仅支持模型的基础学习过程,还通过验证和测试集来评估和优化模型的表现。
Deepseek通俗版解释:训练数据集就像是一本“学习秘籍”。比如说你想让一个机器学会识别猫和狗的照片。那这个训练数据集里就会装满各种各样猫和狗的照片。这些照片就是用来教机器怎么分辨猫和狗的特征的。
参数量:模型中可调节的数值,用于调整神经网络的行为。
深度学习:一种基于多层神经网络的机器学习方法,特别适合处理大规模数据。深度学习不仅仅适用于大规模数据处理,它还特别擅长自动提取数据中的复杂特征,减少了手工设计特征的需求。
预训练(Pre-training):在大规模无标注数据上训练模型,学习通用的语言规律。
微调(Fine-tuning):在预训练模型基础上,用特定领域的小规模数据进一步训练。
监督微调(Supervised Fine-Tuning,SFT):使用标注好的数据集对模型进行进一步训练,使其在特定任务上表现更好。
少样本学习(Few-shot Learning):在只有少量标注数据的情况下训练模型,使其能够快速适应新任务。
超参数调优(Hyperparameter Tuning):对模型的超参数进行优化,以提高模型性能。
对抗训练(Adversarial Training):通过生成对抗样本来训练模型,增强其鲁棒性。
Scaling Law(缩放定律):描述模型性能如何随着模型规模(如参数数量)、数据集大小和计算资源的增加而变化的规律。Scaling Law表明,模型性能通常会按照幂律关系改善。
人类反馈的强化学习(Reinforcement Learning from Human Feedback,RLHF):通过人类反馈优化模型输出,使其更符合人类价值观。
迁移学习(Transfer Learning):将一个领域的知识迁移到另一个领域以改进学习效率和效果的方法。
梯度下降(Gradient Descent):一种优化算法,通过最小化损失函数来更新模型参数,以改进模型性能。元学习(Meta-learning)
学习率(Learning Rate):控制梯度下降步骤大小的超参数,对模型训练速度和最终性能有重要影响。
早停法(Early Stopping):一种防止过拟合的技术,在验证集上的性能不再提高时停止训练。
数据增强(Data Augmentation):通过对训练数据进行变换(如旋转、缩放等),生成更多样化的训练样本,以增加模型的泛化能力。
联合学习(Federated Learning):是一种分布式机器学习方法,旨在允许多个参与者在不共享原始数据的情况下共同训练模型。这种方法特别适用于隐私保护和数据安全要求较高的场景,如医疗、金融和移动设备等领域。
模型优化与压缩
知识蒸馏/模型蒸馏(Knowledge Distillation/Model Distillation):一种技术,通过训练一个小模型(学生模型)来模仿大模型(教师模型)的行为,以达到减少计算复杂度和资源消耗的目的。这种技术不仅限于大小模型之间的转换,也可以用于模型间的知识迁移。
Deepseek通俗版解释:假设你是一个学生,有一个超级学霸同学(这个学霸同学就像是原始的大模型)。这个学霸同学知道好多好多知识,包括很多复杂的解题技巧、对各种概念深入的理解等。现在你想快速掌握这些知识,但是你没有那么多时间和精力像学霸同学那样去学习每一个细节。于是,学霸同学就把他的知识总结成了一些重点内容、解题思路的精华部分(这就是蒸馏的过程),然后告诉你。你通过学习这些精华内容,也能够解决很多问题,虽然你可能没有学霸同学知道的知识那么全面深入,但已经足够应对很多常见情况了。
量化(Quantization):将模型的参数和激活值映射到较低的位数(如从32位浮点数降至8位整数),以减少模型的存储需求和计算复杂度。这有助于降低内存占用并加速推理过程。
模型压缩(Model Compression):通过一系列技术手段,如知识蒸馏、量化、剪枝等,减少模型的参数量和计算量,使其能够在资源有限的设备上高效运行。
稀疏激活(Sparse Activation):采用特定类型的激活函数(如ReLU变体)或通过结构化稀疏训练,使得神经网络的激活函数在大部分情况下输出零值,从而减少计算量和存储需求。
低秩分解(Low-Rank Factorization):通过近似高维矩阵为两个或多个低维矩阵的乘积来减少模型参数量的技术,这种方法可以有效降低计算成本和存储需求。
权重共享(Weight Sharing):
是卷积神经网络(CNN)中的一个核心概念,主要目的是减少模型的参数数量,提高计算效率和泛化能力。以下是关于权重共享的详细解释:
是指在卷积层中,卷积核(Filter)在输入图像的每个位置上使用相同的权重参数进行卷积操作。这意味着卷积核在滑动过程中,每个位置的计算都使用相同的权重矩阵。
计算与性能优化
混合精度训练(Mixed-Precision Training):通过结合使用16位和32位浮点数来加速深度学习模型的训练过程,同时减少内存占用。这不仅提高了计算效率,还允许在相同的硬件上训练更大规模的模型。
批处理(Batching):一次性处理多个样本以提高计算效率的技术,通过充分利用现代硬件(如GPU)的并行处理能力,显著加快训练速度。
硬件加速(Hardware Acceleration):利用专门设计用于加速特定类型计算任务的硬件(如GPU、TPU)来加速模型的训练和推理过程,提供比通用CPU更高的计算能力和效率。自适应计算(Adaptive Computation)
分布式训练(Distributed Training):通过在网络中的多台机器之间分配训练任务来加速训练过程,特别适用于处理极其庞大的数据集和模型参数。
内存优化(Memory Optimization):采用各种技术减少训练过程中所需的内存消耗,使得可以在有限的硬件资源上训练更大的模型,如梯度累积和检查点机制等。
推理与应用
推理(Inference):模型在训练完成后,利用学到的知识根据输入数据预测输出结果,用于解决实际问题或做出决策。
深度强化学习(Deep Reinforcement Learning):结合深度学习和强化学习的方法,使代理能够在复杂环境中通过试错学习最优策略,广泛应用于游戏、机器人控制等领域。
多模态学习(Multimodal Learning):训练能够处理多种输入形式(如文本、图像、语音等)的模型,使得模型能够理解和处理来自不同信息源的数据。
迁移学习(Transfer Learning):一种技术,通过将在一个领域或任务上学到的知识应用到另一个领域或任务上,以改进学习效率和效果。这种方法特别适用于目标领域数据稀缺的情况,通过利用源领域的丰富知识来加速学习过程并提高模型性能
提示词(Prompt):在生成式模型中,用于引导模型生成特定内容的输入文本。精心设计的提示词可以显著影响模型输出的质量,适用于文本生成、问答系统等多种任务。
Deepseek通俗版解释:大模型提示词,就是你给AI的“问题”或“指令”,就像你教小朋友画画时说的话。比如:
- 如果你说:“随便画点什么”,小朋友可能画一朵花🌼。
- 但如果你说:“画一只戴帽子的蓝色小狗🐶”,小朋友就会按你的要求画。
AI(比如ChatGPT)就像这个小朋友,提示词越清楚,AI的回答就越准!
上下文窗口(Context Window):模型在处理输入数据时能够“看到”的上下文范围,对于捕捉序列数据中的依赖关系至关重要。
在线学习(Online Learning):模型能够实时更新其参数以适应不断变化的数据环境,特别适用于数据流持续到达的应用场景,如推荐系统和金融市场分析。
数据与标签
数据清洗(Data Cleaning):是一个关键步骤,用于改善数据的质量和可靠性,确保数据的准确性、一致性和完整性。以下是数据清洗的主要目的和关键活动: 提高数据质量:通过识别和纠正数据中的错误、缺失值、异常值和重复值,数据清洗显著提高数据的准确性和完整性。 保证数据一致性:数据清洗确保数据在不同数据源之间保持一致,通过标准化、转换和合并数据,消除格式差异和数据冲突。 支持数据分析和决策:清洗后的数据更适合进行深入分析,通过消除数据中的噪声和干扰,突出数据的关键特征和趋势,为决策提供有力支持。 提高可视化效果:清洗后的数据更规范、一致,有助于在可视化中减少混乱和误导,提供清晰、易懂的信息。
Deepseek通俗版解释:就是把“脏”数据变成“干净”数据的过程。想象一下,你有一堆杂乱无章的文件,里面有很多错误、重复和缺失的信息,这种情况下数据的效用肯定是达不到理想标准的,需要提前对数据集进行预处理之后才可使用。数据清洗这一步骤要完成的任务就是要整理这些数据,让它们变得整洁、准确和有用。
特征工程(Feature Engineering):从原始数据中提取有用的特征,以便更好地训练机器学习模型。这包括特征选择、特征创建和转换等过程。
数据标注(Data Annotation):为训练监督学习模型而对数据进行标记的过程,涉及将类别标签或其他注释附加到数据点上。
合成数据(Synthetic Data):通过算法生成的人工数据,用于补充或替代真实世界的数据。合成数据可以在数据稀缺、敏感或难以收集的情况下提供帮助,尤其是在需要保护隐私的环境中。它广泛应用于自动驾驶汽车、医疗影像分析等领域,通过模拟不同的场景来扩展训练数据集。
数据增强(Data Augmentation):通过生成新的训练样本来增加训练数据的多样性,如图像旋转、缩放等,以提高模型的泛化能力和鲁棒性。
软标签(Soft Labels):不同于硬标签的确定性分类,软标签提供了教师模型预测的概率分布,反映了每个类别的可能性。这种方法可以传递更多的信息,例如在知识蒸馏中,使用软标签可以帮助学生模型更好地学习教师模型的知识。
大模型工具划分
• 🚀 LLM Training:专注于 LLM 训练和微调的工具,帮助你更快、更高效地优化模型。
• 🧱 LLM Application Development:从框架到多 API 接入,再到缓存和低代码开发,为应用开发提供全方位支持。
• 🩸 LLM RAG:Retrieval-Augmented Generation(检索增强生成)相关的库,提升模型的知识检索能力。
• 🟩 LLM Inference:推理加速和优化工具,让模型运行更流畅。
• 🚧 LLM Serving:模型部署和推理服务的解决方案。
• 📤 LLM Data Extraction:数据提取工具,帮助你从各种来源获取高质量数据。
• 🌠 LLM Data Generation:生成合成数据,丰富你的训练集。
• 💎 LLM Agents:构建智能代理,实现自动化任务和多代理协作。
• ⚖️ LLM Evaluation:评估工具,确保模型性能达到预期。
• 🔍 LLM Monitoring:监控模型运行状态,及时发现并解决问题。
• 📅 LLM Prompts:优化和管理提示词,提升模型输出质量。
• 📝 LLM Structured Outputs:生成结构化输出,让模型结果更易用。
• 🛑 LLM Safety and Security:保障模型的安全性和可靠性。
• 💠 LLM Embedding Models:提供先进的文本嵌入模型。
• ❇️ Others:其他实用工具,涵盖更多开发场景。
特征与数据处理
特征提取(Feature Extraction):将高维、复杂的原始数据转换为低维且具有代表性的特征集合。原始数据往往包含大量冗余或无关信息,直接使用这些数据进行模型训练不仅会增加计算成本,还可能导致模型性能下降。通过特征提取,我们可以去除这些冗余信息,保留最能反映数据本质特征的部分,从而提高模型的效率和准确性。
数据标准化/归一化(Data Standardization / Normalization):将不同尺度的数据转换到相同的尺度上,以便于某些机器学习算法的处理。标准化通常是基于均值和标准差进行的,而归一化则是将数值缩放到一个特定范围(如0到1之间)。
特征构建(Feature Construction):创建新的特征或修改现有特征以更好地捕捉数据中的模式。这可以通过数学变换、组合现有特征等方式实现。
模型评估与调试
对抗样本(Adversarial Examples):是通过算法在原始输入中添加人眼难以察觉的微小扰动所形成的新样本,以该样本作为模型的输入,会使得模型以高置信度将其分类错误[1]。虽然,对抗样本可对机器学习模型产生攻击效果[2],但目前对抗样本在深度学习领域中的研究较为广泛。
局部搜索(Local Search):一种优化算法,通过在解空间中寻找局部最优解,并试图从局部最优解出发找到全局最优解。尽管不是直接与模型评估相关,但在某些情况下可用于优化模型参数。
模型的可扩展性(Scalability):可扩展性是指系统处理不断增长的用户、数据、并发、业务的能力或其适应业务、数据增长的潜力 • 当请求负载或用户数据增加时,能够保持甚至提高其性能、效率和可靠性的系统具有良好的可扩展性。 • 可扩展性对于确保系统能够处理增加的用户流量、数据量或计算需求,而不会显著降低性能或需要完全重新设计至关重要
可解释性(Explainability):指的是模型决策过程的透明度和可理解性,即能够清楚地解释模型为什么做出特定预测的能力。这对于确保模型的公平性、避免偏见以及增强用户信任至关重要。精确率、召回率和F1分数(Precision, Recall, F1 Score)
模型的泛化能力(Generalization):模型在未见过的新数据上表现良好的能力,是衡量模型是否过拟合的重要指标。良好的泛化能力意味着模型不仅能在训练数据上表现良好,在新数据上也能有出色的表现。
交叉验证(Cross-validation):一种统计方法,通过将数据集划分为几个子集并循环使用这些子集进行训练和测试来评估模型性能。这种方法有助于更准确地估计模型的泛化能力,并减少因数据划分不同而导致的结果波动。
混淆矩阵(Confusion Matrix):用于描述分类模型性能的一种表格,显示了每个类别的实际值与预测值之间的对比情况,提供了关于分类器误差类型的详细信息。
AUC-ROC曲线(Area Under the Curve - Receiver Operating Characteristic Curve):用于评估二分类模型性能的一个图形工具,展示了模型区分正负类的能力。AUC值越接近于1,表示模型的分类效果越好。
模型校准(Model Calibration):确保模型预测的概率反映了真实发生的概率的过程。良好的校准对于需要概率估计的任务非常重要。
偏差-方差权衡(Bias-Variance Tradeoff):描述了模型复杂度与误差之间的关系。高偏差通常意味着模型过于简单而欠拟合,高方差则意味着模型过于复杂而过拟合。
伦理与公平性
模型的伦理和偏见(Ethics and Bias):指模型在训练和应用过程中可能存在的伦理问题和偏见。这些问题包括但不限于性别、种族、年龄等方面的歧视性偏差,以及隐私保护、数据使用合法性等伦理考量。解决这些问题对于构建公平、透明和负责任的人工智能系统至关重要。
Deepseek通俗版解释:模型伦理就像是给模型的行为制定一套规则。比如说,我们希望一个预测天气的模型是准确可靠的。如果这个模型总是故意给出错误的天气预报来误导农民播种或者航海者出行,那就是不道德的。再比如,在医疗领域,有一个根据病人症状预测疾病的模型。如果这个模型为了某些利益(比如推销某种昂贵的药物),把普通感冒诊断为重病,这就是违背了模型伦理。
问责制(Accountability):指确定谁对AI系统的决策负责的过程。这涉及到法律、伦理和技术层面的问题,确保当模型出现错误或造成伤害时,有明确的责任人或机制来处理。
公平性(Fairness):指机器学习模型在不同群体之间的表现是否公正。评估模型的公平性通常涉及检查是否存在对某些群体不利的偏见,并采取措施减轻这种偏见,以确保所有用户都能得到公平对待。
大模型和程序员的关系
(1)目前ChatGPT对程序员到底有哪些实质性的帮助?
第一点:Code Review ChatGPT能够理解代码,并针对代码给出针对性的建议和优化方案;
第二点:写测试用例、单元测试、集成测试等,这些ChatGPT都很擅长!
第三点:对线上问题的定位和分析 线上问题的各种疑难杂症,ChatGPT都能胜任!
第四点:SQL的翻译 实现两种数据库的SQL语言转换,比如将Oracle的SQL脚本转换成MySQL的SQL脚本。
(2)有了AI编程,还需要程序员吗?
第一,在冯诺依曼架构体系下,程序需要的是确定性计算;
第二,由于大模型本身的概率性,目前大模型生成的代码还具备一定的随意性和不确定性;
第三,目前大模型更擅长的是一些抽象层次比较低的工作,比如一段代码或一个算法的实现,写一个单元测试等等。而一些抽象层次比较高的工作,比如需求分析、架构设计、领域设计、架构选型等,这些工作反而是大模型不擅长的,而这些工作是比较具备有竞争力的,这恰恰是一些高级程序员以及系统架构师的价值所在。
(3)应用实践AIGC有几层境界?
第一层境界:简单对话; 通过ctrl-c/v出结果,人人都会。
第二层境界:系统掌握Prompt Engineering; 通过系统掌握好提示词工程,真正赋能工作提效。
第三层境界:将AIGC融入业务流程,指挥AIGC完成复杂的任务; 通过掌握AIGC的技能,并完成业务领域知识的深入结合。
第四层境界:拥有自己的大模型; 熟悉大模型的架构原理,通过开源大模型微调,最好能够拥有一定的行业数据壁垒。
第五层境界:参与设计训练大模型; 比如从事ChatGPT等研发工作。 目前,Edison还处于第二层即提示词工程,我们整理了很多针对SDLC(软件开发生命周期)过程中的经典场景的提示词模板来做提效。 那么,你处于哪一层呢?
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
这份完整版的大模型 AI 学习资料已经上传优快云,朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【保证100%免费
】
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。