面向初学者、科学家、工程师的大语言模型完整课程（Github 6万+颗星）大模型入门到精通，收藏这篇就足够了！

原创于 2025-10-22 16:26:18 发布 · 512 阅读

10 ·

CC 4.0 BY-SA版权

文章标签：

#github #人工智能 #python #docker #embedding #自然语言处理 #LLM

本文由deepseek-R1全文精译，和通AI编译发布。

LLM 课程分为三个部分：

🧩 LLM 基础（可选）：涵盖数学、Python 和神经网络的基础知识。

🧑‍🔬 LLM 科学家：专注于使用最新技术构建最佳的 LLM。

👷 LLM 工程师：专注于创建基于 LLM 的应用程序并进行部署。

PART-01

LLM基础

0****1

机器学习的数学

在掌握机器学习之前，理解驱动这些算法的基本数学概念非常重要。

线性代数：这对于理解许多算法至关重要，尤其是深度学习中用到的算法。关键概念包括向量、矩阵、行列式、特征值和特征向量、向量空间和线性变换。
微积分：许多机器学习算法涉及连续函数的优化，这需要理解导数、积分、极限和级数。多变量微积分和梯度的概念也很重要。
概率与统计：这些对于理解模型如何从数据中学习并进行预测至关重要。关键概念包括概率论、随机变量、概率分布、期望、方差、协方差、相关性、假设检验、置信区间、最大似然估计和贝叶斯推断。

资源：

3Blue1Brown - 线性代数的本质：通过一系列视频赋予这些概念几何直观性。
Josh Starmer 的 StatQuest - 统计学基础：为许多统计概念提供简单清晰的解释。
Ms Aerin 的 AP 统计学直观理解：提供每一概率分布背后直观理解的中型文章列表。
沉浸式线性代数：线性代数的另一种视觉诠释。
可汗学院- 线性代数：对初学者非常友好，以非常直观的方式解释概念。
可汗学院- 微积分：一门涵盖所有微积分基础知识的交互式课程。
可汗学院- 概率与统计：以易于理解的格式呈现材料。

0****2

机器学习的 Python

Python 是一种强大而灵活的编程语言，特别适合机器学习，这得益于其可读性、一致性和强大的数据科学生态系统库。

Python 基础：Python 编程需要很好地理解基本语法、数据类型、错误处理和面向对象编程。
数据科学库：包括熟悉用于数值运算的NumPy，用于数据操作和分析的 Pandas，以及用于数据可视化的 Matplotlib 和 Seaborn。
数据预处理：这涉及特征缩放和归一化、处理缺失数据、异常值检测、分类数据编码以及将数据拆分为训练集、验证集和测试集。
机器学习库：熟练掌握Scikit-learn 至关重要，该库提供了广泛的监督和非监督学习算法。理解如何实现线性回归、逻辑回归、决策树、随机森林、K近邻 (K-NN) 和 K-均值聚类等算法非常重要。主成分分析 (PCA) 和 t-分布随机邻域嵌入 (t-SNE) 等降维技术也有助于可视化高维数据。

资源：

Real Python：一个综合资源，包含面向初学者和高级 Python 概念的文章和教程。
freeCodeCamp - 学习 Python：长视频，全面介绍 Python 中的所有核心概念。
Python 数据科学手册：免费电子书，是学习 pandas、NumPy、Matplotlib 和 Seaborn 的绝佳资源。
freeCodeCamp - 给每个人的机器学习：面向初学者的不同机器学习算法的实践介绍。
Udacity - 机器学习导论：免费课程，涵盖 PCA 和其他几个机器学习概念。

0****3

神经网络

神经网络是许多机器学习模型的基本组成部分，尤其是在深度学习领域。为了有效利用它们，需要全面理解其设计和机制。

基础：包括理解神经网络的结构，例如层、权重、偏置和激活函数（Sigmoid、tanh、ReLU 等）。
训练与优化：熟悉反向传播和不同类型的损失函数，如均方误差(MSE) 和交叉熵。理解各种优化算法，如梯度下降、随机梯度下降、RMSprop 和 Adam。
过拟合：理解过拟合的概念（模型在训练数据上表现良好但在未见数据上表现不佳），并学习各种正则化技术（丢弃法Dropout、L1/L2 正则化、早停法 Early Stopping、数据增强）来防止它。
实现多层感知机(MLP)：使用 PyTorch 构建一个 MLP，也称为全连接网络。

资源：

3Blue1Brown - 神经网络是什么？：该视频直观地解释了神经网络及其内部工作原理。
freeCodeCamp - 深度学习速成课：该视频高效地介绍了深度学习中所有最重要的概念。
Fast.ai - 实用深度学习：为有编码经验并想了解深度学习的人设计的免费课程。
Patrick Loeber - PyTorch 教程：为完全初学者学习 PyTorch 而设计的一系列视频。

0****4

自然语言处理 (NLP)

NLP是人工智能的一个迷人分支，它在人类语言和机器理解之间架起了桥梁。从简单的文本处理到理解语言细微差别，NLP 在许多应用中扮演着关键角色，如翻译、情感分析、聊天机器人等。

文本预处理：学习各种文本预处理步骤，如词元化（将文本拆分为单词或句子）、词干提取（将单词还原为其词根形式）、词形还原（类似于词干提取但考虑上下文）、停用词去除等。
特征提取技术：熟悉将文本数据转换为机器学习算法可以理解的格式的技术。关键方法包括词袋模型(BoW)、词频-逆文档频率 (TF-IDF) 和 n-元语法 (n-grams)。
词嵌入：词嵌入是一种词表示形式，它允许具有相似含义的单词具有相似的表示。关键方法包括Word2Vec、GloVe 和 FastText。
循环神经网络(RNN)：理解 RNN 的工作原理，这是一种设计用于处理序列数据的神经网络。探索 LSTM 和 GRU，这两种 RNN 变体能够学习长期依赖关系。

资源：

Lena Voita - 词嵌入：关于词嵌入相关概念的初学者友好课程。
RealPython - 使用 Python 的 spaCy 进行 NLP：关于在 Python 中使用 spaCy 库执行 NLP 任务的详尽指南。
Kaggle - NLP 指南：一些用于动手解释 Python 中 NLP 的笔记本和资源。
Jay Alammar - Word2Vec 图解：理解著名的 Word2Vec 架构的良好参考。
Jake Tae - 从零开始的 PyTorch RNN：在 PyTorch 中实践且简单地实现 RNN、LSTM 和 GRU 模型。
colah’s blog - 理解 LSTM 网络：关于 LSTM 网络的更理论性的文章。

**PART-**02

LLM科学家

本部分课程重点学习如何使用最新技术构建最佳的 LLM。

0****1

LLM 架构

不需要深入了解 Transformer 架构，但了解现代 LLM 的主要步骤很重要：通过词元化将文本转换为数字，通过包括注意力机制在内的层处理这些词元，最后通过各种采样策略生成新文本。

架构概述：了解从编码器-解码器Transformer到像GPT这样的仅解码器架构的演变，这些架构构成了现代 LLM 的基础。重点了解这些模型如何在高层次上处理和生成文本。
词元化：学习词元化的原理——文本如何转换为 LLM 可以处理的数字表示。探索不同的词元化策略及其对模型性能和输出质量的影响。
注意力机制：掌握注意力机制的核心概念，特别是自注意力及其变体。了解这些机制如何使 LLM 能够处理长距离依赖关系并在整个序列中保持上下文。
采样技术：探索各种文本生成方法及其权衡。比较确定性方法（如贪婪搜索和束搜索）与概率性方法（如温度采样和核采样）。

📚 参考文献：

3Blue1Brown的Transformer可视化介绍：为完全初学者提供的Transformer可视化介绍。
Brendan Bycroft 的 LLM 可视化：LLM 内部的交互式 3D 可视化。
Andrej Karpathy 的 nanoGPT：一个 2 小时长的 YouTube 视频，从头开始重新实现 GPT（面向程序员）。他还制作了一个关于词元化的视频。
Lilian Weng 的《Attention? Attention!》：历史概述，介绍对注意力机制的需求。
Maxime Labonne 的《LLM 中的解码策略》：提供代码和视觉介绍，介绍生成文本的不同解码策略。

0****2

预训练模型

预训练是一个计算密集且昂贵的过程。虽然这不是本课程的重点，但扎实理解模型如何进行预训练非常重要，尤其是在数据和参数方面。预训练也可以由爱好者在较小规模（<1B 模型）上进行。

数据准备：预训练需要海量数据集（例如，Llama 3.1 在 15 万亿个词元上训练），这些数据集需要仔细策划、清理、去重复和词元化。现代预训练流水线实现了复杂的过滤以去除低质量或有问题的内容。
分布式训练：结合不同的并行化策略：数据并行（批次分布）、流水线并行（层分布）和张量并行（操作拆分）。这些策略需要在 GPU 集群上进行优化的网络通信和内存管理。
训练优化：使用带有热身（warm-up）的自适应学习率、梯度裁剪和归一化来防止梯度爆炸，使用混合精度训练以提高内存效率，以及使用现代优化器（AdamW、Lion）并调整超参数。
监控：使用仪表板跟踪关键指标（损失、梯度、GPU 状态），为分布式训练问题实施针对性日志记录，并设置性能分析以识别跨设备计算和通信的瓶颈。

📚 参考文献：

Penedo等人的FineWeb：重新创建用于 LLM 预训练的大规模数据集（15T）的文章，包括高质量子集 FineWeb-Edu。
Weber等人的RedPajama v2：另一篇关于大规模预训练数据集的文章和论文，包含许多有趣的质量过滤器。
Hugging Face的nanotron：用于制作 SmolLM2 的极简 LLM 训练代码库。
Chenyan Xiong 的并行训练：关于优化和并行技术的概述。
Duan 等人的分布式训练：关于在分布式架构上高效训练 LLM 的综述。
AI2的OLMo 2：包含模型、数据、训练和评估代码的开源语言模型。
LLM360的LLM360：一个开源 LLM 框架，包含训练和数据准备代码、数据、指标和模型。

0****3

训练后数据集

训练后数据集具有精确的结构，包含指令和答案（监督微调）或指令以及选定/拒绝的答案（偏好对齐）。对话结构比预训练中使用的原始文本要罕见得多，这就是为什么我们通常需要处理种子数据并对其进行细化，以提高样本的准确性、多样性和复杂性。更多信息和示例可在我的仓库💾LLM Datasets中找到。

存储和聊天模板：由于对话结构，训练后数据集以特定格式存储，如ShareGPT或OpenAI/HF。然后，这些格式被映射到聊天模板，如ChatML或Alpaca，以生成模型训练的最终样本。
合成数据生成：使用前沿模型（如GPT-4o）基于种子数据创建指令-响应对。这种方法允许以高质量答案灵活且可扩展地创建数据集。关键考虑因素包括设计多样化的种子任务和有效的系统提示。
数据增强：使用诸如验证输出（使用单元测试或求解器）、带有拒绝采样的多个答案、Auto-Evol、思维链(Chain-of-Thought)、分支-解决-合并(Branch-Solve-Merge)、角色扮演 (personas) 等技术来增强现有样本。
质量过滤：传统技术包括基于规则的过滤、删除重复或近似重复项（使用MinHash或嵌入）以及n-gram 去污染。奖励模型和评判LLM通过细粒度和可定制的质量控制来补充这一步。

📚 参考文献：

Argilla的合成数据生成器：在Hugging Face Space中使用自然语言构建数据集的初学者友好方式。
Maxime Labonne 的 LLM 数据集：用于训练后数据集的精选数据集和工具列表。
Nvidia 的 NeMo-Curator：用于训练前和训练后数据的数据集准备和策划框架。
Argilla 的 Distilabel：生成合成数据的框架。它还包括有趣的文章重现，如 UltraFeedback。
MinishLab 的 Semhash：用于近似去重复和去污染的极简库，带有蒸馏嵌入模型。
Hugging Face 的聊天模板：Hugging Face 关于聊天模板的文档。

0****4

监督微调 (SFT)

SFT 将基座模型转变为有用的助手，能够回答问题并遵循指令。在此过程中，它们学习如何构建答案并重新激活在预训练期间学到的部分知识。灌输新知识是可能的，但很肤浅：它不能用于学习一门全新的语言。始终优先考虑数据质量而非参数优化。

训练技术：全量微调会更新所有模型参数，但需要大量计算。参数高效微调技术，如 LoRA 和 QLoRA，通过训练少量适配器参数同时保持基座权重冻结，来减少内存需求。QLoRA 将 4 位量化与 LoRA 结合以减少 VRAM 使用。这些技术都在最流行的微调框架中实现：TRL、Unsloth 和 Axolotl。
训练参数：关键参数包括带调度器的学习率、批次大小、梯度累积、轮数、优化器（如 8 位 AdamW）、用于正则化的权重衰减以及用于训练稳定性的预热步数。LoRA 还增加了三个参数：秩（通常为 16-128）、alpha（1-2 倍秩）和目标模块。
分布式训练：使用 DeepSpeed 或 FSDP 将训练扩展到多个 GPU。DeepSpeed 提供三个 ZeRO 优化阶段，通过状态分区提供越来越高的内存效率。两种方法都支持梯度检查点以提高内存效率。
监控：跟踪训练指标，包括损失曲线、学习率计划和梯度范数。监控常见问题，如损失峰值、梯度爆炸或性能下降。

📚 参考文献：

Maxime Labonne 的《使用 Unsloth 超高效微调 Llama 3.1》：关于如何使用 Unsloth 微调 Llama 3.1 模型的实践教程。
Wing Lian 的 Axolotl - 文档：包含大量与分布式训练和数据集格式相关的有趣信息。
Hamel Husain 的《掌握 LLM》：关于微调（但也包括 RAG、评估、应用程序和提示工程）的教育资源集合。
Sebastian Raschka 的 LoRA 见解：关于 LoRA 以及如何选择最佳参数的实践见解。

0****5

偏好对齐

偏好对齐是训练后流水线中的第二阶段，专注于将生成的答案与人类偏好对齐。此阶段旨在调整 LLM 的语气，减少毒性和幻觉。然而，它对于提升其性能和改善实用性也变得越来越重要。与 SFT 不同，存在许多偏好对齐算法。这里，我们将重点介绍三个最重要的：DPO、GRPO 和 PPO。

拒绝采样：对于每个提示，使用训练好的模型生成多个响应，并对它们进行评分以推断选定/拒绝的答案。这会创建同策略数据，其中两个响应都来自正在训练的模型，从而提高了对齐稳定性。
直接偏好优化 (DPO)：直接优化策略，以最大化选定响应相对于拒绝响应的可能性。它不需要奖励建模，这使得它在计算上比 RL 技术更高效，但在质量上稍差。非常适合创建聊天模型。
奖励模型：利用人类反馈训练奖励模型，以预测诸如人类偏好等指标。它可以利用 TRL、verl 和 OpenRLHF 等框架进行可扩展训练。
强化学习 (RL)：像 GRPO 和 PPO 这样的 RL 技术迭代更新策略以最大化奖励，同时保持接近初始行为。它们可以使用奖励模型或奖励函数来评分响应。它们往往计算成本高昂，并且需要仔细调整超参数，包括学习率、批次大小和裁剪范围。非常适合创建推理模型。

📚 参考文献：

Hugging Face 的《图解 RLHF》：通过奖励模型训练和强化学习微调介绍RLHF。
Sebastian Raschka 的《LLM训练：RLHF及其替代方案》：RLHF过程及其替代方案（如 RLAIF）的概述。
Hugging Face 的《偏好调优LLM》：比较用于执行偏好对齐的DPO、IPO和KTO算法。
Maxime Labonne 的《使用DPO微调》：使用DPO微调Mistral-7b模型并重现NeuralHermes-2.5的教程。
Maxime Labonne的《使用GRPO微调》：使用GRPO微调小型模型的实践练习。
Alexander Vishnevskiy 的DPOWandb日志：它向您展示了需要跟踪的主要DPO指标以及您应该预期的趋势。

0****6

测评

可靠地测评LLM是一项复杂但必不可少的任务，指导着数据生成和训练。它提供了关于改进领域的宝贵反馈，可用于修改数据混合、质量和训练参数。然而，记住古德哈特定律总是好的：“当一项测量成为目标时，它就不再是一个好的测量。”

自动化基准测试：使用精选数据集和指标（如MMLU）在特定任务上评估模型。它适用于具体任务，但在抽象和创造性能力方面存在困难。它也容易受到数据污染的影响。
人类评估：它涉及人类提示模型并对响应进行评分。方法范围从氛围检查(vibe checks)到带有特定指南的系统标注和大规模社区投票（竞技场）。它更适合主观任务，但在事实准确性方面不太可靠。
基于模型的评估：使用评判和奖励模型来评估模型输出。它与人类偏好高度相关，但会受到对其自身输出的偏见和不一致评分的影响。
反馈信号：分析错误模式以识别特定弱点，例如在遵循复杂指令方面的限制、缺乏特定知识或易受对抗性提示影响。这可以通过更好的数据生成和训练参数来改进。

📚 参考文献：

Clémentine Fourrier 的评估指南：关于 LLM 评估的实践见解和理论知识。
Hugging Face 的 Open LLM 排行榜：在开放和可复现的方式（自动化基准测试）下比较 LLM 的主要排行榜。
EleutherAI 的语言模型评估工具：一个使用自动化基准测试评估 LLM 的流行框架。
Hugging Face 的 Lighteval：替代评估框架，也包括基于模型的评估。
LMSYS的Chatbot Arena：通用LLM的Elo评分，基于人类进行的比较（人类评估）。

0****7

量化

量化是使用较低精度转换模型参数和激活的过程。例如，使用 16 位存储的权重可以转换为 4 位表示。这种技术对于减少与 LLM 相关的计算和内存成本变得越来越重要。

基础技术：了解不同的精度级别（FP32、FP16、INT8 等）以及如何使用 absmax 和零点 (zero-point) 技术执行朴素量化。
GGUF和llama.cpp：最初设计用于在 CPU 上运行，llama.cpp 和 GGUF 格式已成为在消费级硬件上运行 LLM 最流行的工具。它支持将特殊词元、词汇表和元数据存储在单个文件中。
GPTQ 和 AWQ：像 GPTQ/EXL2 和 AWQ 这样的技术引入了逐层校准，在极低位宽下保持性能。它们通过动态缩放减少灾难性异常值，选择性地跳过或重新定位最重的参数。
SmoothQuant 和 ZeroQuant：新的量化友好变换（SmoothQuant）和基于编译器的优化（ZeroQuant）有助于在量化前减轻异常值。它们还通过融合某些操作和优化数据流来减少硬件开销。

📚 参考文献：

Maxime Labonne 的《量化简介》：量化概述、absmax 和零点量化，以及带有代码的 LLM.int8()。
Maxime Labonne 的《使用 llama.cpp 量化 Llama 模型》：关于如何使用 llama.cpp 和 GGUF 格式量化 Llama 2 模型的教程。
Maxime Labonne 的《使用 GPTQ 进行 4 位 LLM 量化》：关于使用 GPTQ 算法和 AutoGPTQ 量化 LLM 的教程。
FriendliAI 的《理解激活感知权重量化》：AWQ 技术及其优势概述。
MIT HAN Lab 的《Llama 2 7B 上的 SmoothQuant》：关于如何在 8 位精度下对 Llama 2 模型使用 SmoothQuant 的教程。
DeepSpeed 的 DeepSpeed 模型压缩：关于如何使用 ZeroQuant 和极端压缩 (XTC) 与 DeepSpeed 压缩的教程。

0****8

新趋势

以下是不适合其他类别的值得注意的主题。有些是已确立的（模型合并、多模态）技术，但其他一些更具实验性（可解释性、测试时计算缩放）并且是众多研究论文的焦点。

模型合并：合并训练好的模型已成为一种无需任何微调即可创建高性能模型的流行方法。流行的 mergekit 库实现了最流行的合并方法，如 SLERP、DARE 和 TIES。
多模态模型：这些模型（如 CLIP、Stable Diffusion 或 LLaVA）处理多种类型的输入（文本、图像、音频等），具有统一的嵌入空间，这解锁了强大的应用程序，如文本到图像。
可解释性：机械可解释性技术，如稀疏自编码器 (SAE)，在提供关于 LLM 内部运作的见解方面取得了显著进展。这也已应用于诸如净化 (abliteration) 之类的技术，允许您无需训练即可修改模型的行为。
测试时计算：使用 RL 技术训练的推理模型可以通过在测试时缩放计算预算来进一步改进。它可以涉及多次调用、MCTS 或专用模型，如过程奖励模型 (PRM)。具有精确评分的迭代步骤显著提高了复杂推理任务的性能。

📚 参考文献：

Maxime Labonne 的《使用 mergekit 合并 LLM》：关于使用 mergekit 进行模型合并的教程。
Merve Noyan 的 Smol Vision：致力于小型多模态模型的笔记本和脚本集合。
Chip Huyen 的大规模多模态模型：多模态系统概述以及该领域近期历史。
Maxime Labonne 的《使用净化解除任何 LLM 的审查》：应用可解释性技术直接修改模型风格。
Adam Karvonen 的《SAE 直观解释》：关于 SAE 如何工作以及为什么它们对可解释性有意义的文章。
Beeching 等人的《缩放测试时计算》：教程和实验，旨在 MATH-500 上超越 Llama 3.1 70B，使用 3B 模型。

PART-03

LLM工程师

本部分课程重点学习如何构建可用于生产环境的基于 LLM 的应用程序，重点是增强模型和部署它们。

0****1

运行 LLM

运行 LLM 可能很困难，因为硬件要求高。根据您的用例，您可能只想通过 API（如 GPT-4）使用模型，或者在本地运行它。在任何情况下，额外的提示和引导技术都可以改进和约束您的应用程序的输出。

LLM API：API是部署LLM的一种便捷方式。这个领域分为私有LLM（OpenAI、Google、Anthropic等）和开源LLM（OpenRouter、Hugging Face、Together AI等）。
开源LLM：Hugging Face Hub是寻找 LLM 的好地方。您可以直接在HuggingFace Spaces中运行其中一些，或者使用LM Studio等应用程序在本地下载和运行它们，或者通过 CLI 使用 llama.cpp 或 ollama。
提示工程：常见技术包括零样本提示、少样本提示、思维链 (Chain of Thought) 和 ReAct。它们在较大的模型上效果更好，但可以适应较小的模型。
结构化输出：许多任务需要结构化输出，如严格的模板或 JSON 格式。可以使用 Outlines 等库来引导生成并遵守给定的结构。一些 API 也原生支持使用 JSON 模式生成结构化输出。

📚 参考文献：

Nisha Arya 的《使用LM Studio 本地运行LLM》：关于如何使用LM Studio的简短指南。
DAIR.AI 的提示工程指南：带有示例的详尽提示技术列表
Outlines - 快速入门：Outlines 启用的引导生成技术列表。
LMQL - 概述：LMQL 语言介绍。

0****2

构建向量存储

创建向量存储是构建检索增强生成 (RAG) 流水线的第一步。文档被加载、拆分，相关的块用于生成向量表示（嵌入），这些表示被存储以备在推理期间使用。

摄取文档：文档加载器是方便的包装器，可以处理多种格式：PDF、JSON、HTML、Markdown 等。它们还可以直接从某些数据库和 API（GitHub、Reddit、Google Drive 等）检索数据。
拆分文档：文本拆分器将文档分解为更小的、语义上有意义的块。与其在 n 个字符后拆分文本，不如按标题或递归拆分更好，并附带一些额外的元数据。
嵌入模型：嵌入模型将文本转换为向量表示。选择特定于任务的模型可显著提高语义搜索和 RAG 的性能。
向量数据库：向量数据库（如 Chroma、Pinecone、Milvus、FAISS、Annoy 等）设计用于存储嵌入向量。它们能够高效检索与查询向量“最相似”的数据。

📚 参考文献：

LangChain - 文本拆分器：LangChain 中实现的不同文本拆分器列表。
Sentence Transformers 库：流行的嵌入模型库。
MTEB 排行榜：嵌入模型的排行榜。
Moez Ali 的《7 大向量数据库》：最佳和最受欢迎向量数据库的比较。

0****3

检索增强生成 (RAG)

通过 RAG，LLM 从数据库中检索上下文文档以提高其答案的准确性。RAG 是一种无需任何微调即可增强模型知识的流行方法。

编排器：像LangChain 和LlamaIndex 这样的编排器是流行的框架，用于将您的 LLM 与工具和数据库连接起来。模型上下文协议 (MCP) 引入了一个新标准，用于跨提供商向模型传递数据和上下文。
检索器：查询重写器和生成式检索器（如 CoRAG 和 HyDE）通过转换用户查询来增强搜索。多向量和混合检索方法将嵌入与关键字信号相结合，以提高召回率和精确率。
记忆：为了记住先前的指令和答案，LLM 和像 ChatGPT 这样的聊天机器人将此历史记录添加到它们的上下文窗口中。可以通过摘要（例如，使用较小的 LLM）、向量存储 + RAG 等来改进此缓冲区。
评估：我们需要评估文档检索（上下文精确率和召回率）和生成阶段（忠实度和答案相关性）。可以使用 Ragas 和 DeepEval 等工具简化（评估质量）。

📚 参考文献：

Llamaindex - 高级概念：构建RAG流水线时需要了解的主要概念。
模型上下文协议：介绍 MCP 的动机、架构和快速入门。
Pinecone - 检索增强：检索增强过程概述。
LangChain - 使用 RAG 进行问答：构建典型 RAG 流水线的分步教程。
LangChain - 记忆类型：不同记忆类型列表及其相关用法。
RAG 流水线 - 指标：用于评估 RAG 流水线的主要指标概述。

0****4

高级 RAG

现实生活中的应用程序可能需要复杂的流水线，包括 SQL 或图数据库，以及自动选择相关工具和 API。这些先进技术可以改进基线解决方案并提供附加功能。

查询构造：存储在传统数据库中的结构化数据需要特定的查询语言，如 SQL、Cypher、元数据等。我们可以直接将用户指令翻译成查询，通过查询构造来访问数据。
工具：代理通过自动选择最相关的工具来提供答案，从而增强 LLM。这些工具可以像使用 Google 或 Wikipedia 一样简单，也可以像 Python 解释器或 Jira 一样复杂。
后处理：最终步骤是处理输入到 LLM 的内容。它通过重新排序、RAG-fusion 和分类来增强检索文档的相关性和多样性。
编程 LLM：像 DSPy 这样的框架允许您基于自动化评估以编程方式优化提示和权重。

📚 参考文献：

LangChain - 查询构造：关于不同类型查询构造的博客文章。
LangChain - SQL：关于如何使用LLM与SQL数据库交互的教程，涉及 Text-to-SQL 和可选的SQL代理。
Pinecone - LLM 代理：介绍具有不同类型的代理和工具。
Lilian Weng 的《LLM 驱动的自主代理》：关于LLM 代理的更理论性的文章。
LangChain - OpenAI的RAG：OpenAI 采用的 RAG 策略概述，包括后处理。
DSPy八步指南：DSPy 通用指南，介绍模块、签名和优化器。

0****5

代理

LLM 代理可以通过基于对其环境的推理采取行动来自主执行任务，通常通过使用工具或函数与外部系统交互。

代理基础：代理使用思维（内部推理以决定下一步做什么）、行动（执行任务，通常通过与外部工具交互）和观察（分析反馈或结果以细化下一步）来操作。
代理框架：可以使用不同的框架简化代理开发，如 LangGraph（工作流的设计和可视化）、LlamaIndex（带有 RAG 的数据增强代理）或 smolagents（初学者友好、轻量级选项）。
多代理：更实验性的框架包括不同代理之间的协作，例如 CrewAI（基于角色的团队编排）、AutoGen（对话驱动的多代理系统）和 OpenAI Agents SDK（生产就绪，具有强大的 OpenAI 模型集成）。

📚 参考文献：

代理课程：由Hugging Face制作的关于AI代理的流行课程。
Jannik Maierhöfer的AI代理比较：跨不同开源 AI 代理框架的特性比较。
LangGraph：关于如何使用 LangGraph 构建 AI 代理的概述。
LlamaIndex 代理：使用 LlamaIndex 构建代理的用例和资源。
smolagents：包含导览、操作指南和更多概念性文章的文档。

0****6

推理优化

文本生成是一个成本高昂的过程，需要昂贵的硬件。除了量化之外，还提出了各种技术来最大化吞吐量和降低推理成本。

Flash Attention：注意力机制的优化，将其复杂度从二次方转变为线性，加速训练和推理。
键值缓存：了解键值缓存以及多查询注意力 (MQA) 和分组查询注意力 (GQA) 中引入的改进。
推测解码：使用小型模型生成草稿，然后由大型模型审查，以加速文本生成。

📚 参考文献：

Hugging Face的GPU推理：解释如何在 GPU 上优化推理。
Databricks 的LLM推理：关于如何在生产中优化LLM推理的最佳实践。
Hugging Face的《优化LLM的速度和内存》：解释优化速度和内存的三种主要技术，即量化、Flash Attention 和架构创新。
Hugging Face的辅助生成：HF 版本的推测解码，这是一篇关于其工作原理以及实现代码的有趣博客文章。

0****7

部署 LLM

大规模部署LLM是一项工程壮举，可能需要多个GPU集群。在其他场景中，演示和本地应用程序的复杂性可以低得多。

本地部署：隐私是开源LLM相对于私有LLM的一个重要优势。本地LLM服务器（LM Studio、Ollama、oobabooga、kobold.cpp 等）利用这一优势为本地应用程序提供支持。
演示部署：像Gradio和Streamlit这样的框架有助于原型设计应用程序和分享演示。您也可以轻松地在线托管它们，例如使用Hugging Face Spaces。
服务器部署：大规模部署LLM需要云（另请参见SkyPilot）或本地基础设施，并且通常利用优化的文本生成框架，如 TGI、vLLM 等。
边缘部署：在受限环境中，像MLC LLM和mnn-llm 这样的高性能框架可以在 Web 浏览器、Android 和 iOS 中部署LLM。

📚 参考文献：

Streamlit - 构建一个基本的 LLM 应用程序：使用 Streamlit 制作类似 ChatGPT 的基本应用程序的教程。
HF LLM 推理容器：使用 Hugging Face 的推理容器在 Amazon SageMaker 上部署 LLM。
Philipp Schmid 的 Philschmid 博客：关于使用 Amazon SageMaker 部署 LLM 的高质量文章集合。
Hamel Husain 的《优化延迟》：比较 TGI、vLLM、CTranslate2 和 mlc 在吞吐量和延迟方面的表现。

0****8

保护 LLM

除了与软件相关的传统安全问题外，LLM 由于其训练和提示方式而具有独特的弱点。

提示黑客攻击：与提示工程相关的不同技术，包括提示注入（附加指令以劫持模型的答案）、数据/提示泄露（检索其原始数据/提示）和越狱（制作提示以绕过安全功能）。
后门：攻击向量可以针对训练数据本身，通过毒化训练数据（例如，使用错误信息）或创建后门（在推理期间改变模型行为的秘密触发器）。
防御措施：保护您的 LLM 应用程序的最佳方法是针对这些漏洞测试它们（例如，使用红队和 garak 等检查）并在生产中观察它们（使用 langfuse 等框架）。

想入门 AI 大模型却找不到清晰方向？备考大厂 AI 岗还在四处搜集零散资料？别再浪费时间啦！2025 年 AI 大模型全套学习资料已整理完毕，从学习路线到面试真题，从工具教程到行业报告，一站式覆盖你的所有需求，现在全部免费分享！

👇👇扫码免费领取全部内容👇👇