大模型究竟是个啥？都有哪些技术领域，面向小白的深度好文！

最新推荐文章于 2025-10-10 14:07:45 发布

转载最新推荐文章于 2025-10-10 14:07:45 发布 · 192 阅读

CC 4.0 BY-SA版权

原文链接：https://mp.weixin.qq.com/s?__biz=Mzg2NzUxNTU1OA==&mid=2247674160&idx=2&sn=f705a48e6bcef9cc4a90be2c783673be&chksm=cf202783245c482e2a4986b8f2c30d834cc1bac29f74bd8369e0aebc2cff2d39379bf38a2fca&scene=126&sessionid=0

点击下方卡片，关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近30个方向学习路线

很多刚入门大模型的小伙伴往往一头雾水，不知道大模型是个啥？什么LLM、VLM、MLLM、推理大模型，这些名词熟悉又陌生，今天星球内部的这篇文章就从大白话的角度给大家讲解一下~

大语言模型（LLM）

定义

大语言模型（Large Language Model，LLM）是基于海量文本数据训练的深度学习模型，其核心能力在于理解并生成自然语言文本。这类模型通过在大规模数据集上进行预训练，学习语言的统计规律、语义关联以及世界知识，从而能够完成各种语言相关任务。LLM与传统NLP模型的关键区别在于其规模——参数量通常达到数十亿甚至数千亿级别，训练数据量可达TB级别，这使得它们展现出强大的泛化能力和上下文理解能力。

本文首发于大模型之心Tech知识星球，硬核资料在星球置顶：加入后可以获取大模型视频课程、代码学习资料及各细分领域学习路线~

戳我 -> 获取大模型巨卷干货

现代LLM的核心特征包括：大规模参数（如GPT-3有1750亿参数）、Transformer架构（基于自注意力机制）、预训练+后训练范式（先在广泛数据上预训练，再针对特定任务进行监督微调或强化学习）以及多任务适应性（一个模型可执行多种语言任务）。这些特征使LLM能够处理从简单拼写检查到复杂对话生成等广泛任务，并在金融、医疗、教育等多个领域得到应用。

LLM的核心能力包括"理解"和"生成"两个方面。理解能力指模型能够解析输入文本的含义、情感和意图；生成能力则是指模型可以根据输入创造出连贯、合乎逻辑的新文本。这种能力不仅限于普通文本，还包括代码、表格甚至音乐等结构化内容的生成。LLM的技术基础是Transformer神经网络架构，特别是其中的自注意力机制（Self-Attention Mechanism），这使得模型能够同时关注输入文本中的所有词语，根据重要性赋予不同权重，有效捕捉长距离的语义关联。

LLM发展历程

主流架构

基础架构：Transformer

Transformer架构是LLM的核心技术基础，由Google研究人员于2017年提出。传统Transformer模型由两个主要组件构成：Encoder（编码器）和Decoder（解码器）。Encoder负责处理输入序列，通过自注意力机制建立全序列的上下文表征；Decoder则在生成输出时使用，包含额外的交叉注意力层来关注Encoder的输出。这种架构最初是为机器翻译等序列到序列任务设计的，需要完整的编码-解码流程。

Transformer的关键创新是自注意力机制，它允许模型在处理一个词语时同时关注输入文本中的所有其他词语，根据重要性分配不同权重。这种机制解决了传统循环神经网络（RNN）难以捕捉长距离依赖的问题，同时具备良好的并行计算能力，可以利用GPU等硬件进行高效训练。自注意力机制通过将每个词的嵌入表示映射成查询向量（Query）、键向量（Key）和值向量（Value），计算相关性分数后对值向量进行加权求和，得到词语的新表示。

Encoder-only架构

Encoder-only架构仅保留Transformer的编码器部分，典型代表是谷歌的BERT模型。这类架构的特点是通过双向上下文建模，能够同时考虑词语左右两侧的上下文信息，非常适合文本理解任务。在训练时，Encoder-only模型通常采用掩码语言模型（Masked Language Model, MLM）目标，即随机掩盖部分输入词语，让模型预测被掩盖的内容。

Encoder-only架构的优势在于对文本的深度理解能力，特别适合分类、问答等需要全面把握文本语义的任务。然而，由于缺乏解码器结构，这类模型不适合直接用于文本生成任务。在实际应用中，BERT等Encoder-only模型通常需要额外添加任务特定的输出层来完成下游任务。

Decoder-only架构

Decoder-only架构是现代LLM的主流选择，如GPT系列、Llama系列等。这类架构仅使用Transformer的解码器部分，但实际实现中往往采用与编码器相似的结构模块。关键区别在于Decoder-only模型采用自回归生成机制，通过掩码自注意力（masked self-attention）确保每个位置只能关注之前的token，防止信息从未来时间步泄露到当前预测。

Decoder-only架构的优势在于高效的单向建模能力，特别适合文本生成任务。在实现上，这类模型通常会共享编码和解码过程的权重矩阵，简化设计并提高计算效率。值得注意的是，虽然称为"Decoder-only"，但实际实现可能使用与Encoder相似的模块，因为核心计算单元在两种架构中高度相似。这种架构选择反映了深度学习领域模块化设计的趋势，通过基础组件的复用和组合创造出适应不同需求的高效模型结构。

LLM的核心能力

1. 文本生成与创作LLM能够根据提示生成连贯、上下文相关的文本，包括文章写作、诗歌创作、故事编撰等。例如，GPT-4可以生成技术文档或营销文案，而Claude 4在复杂工程文档生成方面表现突出，其代码注释完整度比GPT-4.1高42%。

2. 代码生成与辅助编程现代LLM已成为开发者的强大助手。Claude 4 Opus在SWE-bench Verified测试中得分80.2%，能独立完成含碰撞检测的Tetris游戏开发；Qwen2.5-Max在中文Spring Boot+MyBatis场景中生成的DAO层代码采纳率达82%。Code Llama 70B作为开源标杆，被70%高校用于教学。

3. 知识问答与推理LLM能够回答事实性问题并进行多步推理。Gemini 2.5 Pro凭借200万token上下文窗口，在实时数据分析中表现优异；而DeepSeek-R1在金融风险预测中准确率提升45%。不过，最新研究显示，即使是GPT-4o在主动推理（如侦探案件分析）任务中也仅达35%准确率，显著低于人类水平。

4. 文本理解与转换包括文本摘要、翻译、情感分析等。例如，开源模型如Llama 3.1 8B在德语医疗文本结构化（如ICD-10编码）任务中准确率达89.3%。

5. 多模态处理前沿模型如Gemini 2.5 Pro已支持文本、图像、视频的多模态输入输出，拓展了应用场景。

值得注意的是，LLM在不同任务中的表现差异显著。7-12B参数模型（如Llama 3.1 8B、Mistral 7B）在结构化信息提取任务中表现出最佳平衡，准确率达90%，而复杂推理任务则需要更大模型或专门优化（如Claude 4的混合推理模式）。

代表性工作

GPT系列

GPT（Generative Pre-trained Transformer）系列由OpenAI开发，是推动大语言模型发展的关键力量。该系列模型以强大的通用能力和持续的创新著称：

GPT-3（2020）：首个展示出强大few-shot学习能力的模型，拥有1750亿参数，确立了"预训练+提示"的新范式。
GPT-4（2023）：在多模态理解和复杂推理上有显著提升，但架构细节未完全公开。
GPT-4o（2024）：优化版本，提升了响应速度和多模态能力。
GPT-5（2025年8月即将发布）：据传将具备2000万token的上下文窗口，在推理能力和多工具整合上有重大突破，可能合并文本、代码、浏览和视频生成等功能于单一模型。

GPT系列的特点是闭源但提供API服务，模型规模通常大于同期开源模型，在基准测试中长期保持领先。例如，GPT-4在发布时几乎在所有公开基准上都创下了新纪录。不过，随着开源模型的进步，这种差距正在缩小。

Llama系列

Llama（Large Language Model Meta AI）系列由Meta（原Facebook）开发，是目前极具影响力的开源大语言模型家族。从Llama 1到最新的Llama 4，Meta持续推动着开源模型的发展：

Llama 2（2023）：首个可免费商用的开源大模型，参数规模达70B，成为许多后续工作的基础。
Llama 3（2024）：引入多模态能力，在单语言和多语言任务上均有显著提升。
Llama 4（2025）：Meta迄今最先进的模型，首次采用MoE架构，包含三个版本：
- Scout：专注于文档摘要与代码推理，支持1000万token上下文窗口
- Maverick：强调多模态能力，支持视觉和语音输入
- Behemoth：预览中的超大规模模型，总参数达2万亿

Llama 4的一个关键创新是"早期融合"多模态设计，能够使用未标记的文本、图像和视频数据进行联合预训练。其视觉编码器也经过特别优化，在多项图理解和视频理解任务中表现领先。Meta的开源策略极大促进了AI社区的发展，基于Llama系列构建的应用和衍生模型数量庞大，形成了一个活跃的生态系统。

Qwen系列

Qwen（通义千问）系列由阿里巴巴开发，是中国最具影响力的开源大语言模型之一。该系列以全面开源和多模态能力为特色：

Qwen 1.5：基础语言模型系列，包含从0.5B到72B不同规模的版本
Qwen 2.5-Omni：端到端全模态大模型，曾登上Hugging Face榜单总榜榜首
Qwen 3：在数学和代码能力上有显著提升的版本

截至2025年，阿里巴巴已向全球开源200多款模型，Qwen衍生模型数量突破10万，超越Llama系列成为全球最大的开源模型族群。Qwen系列特别强调对中文和多语言任务的支持，在保持开源的同时，性能上也能与同期商业模型竞争。

DeepSeek系列

DeepSeek系列由深度求索公司开发，以其创新的架构设计和高效推理著称。该系列模型虽然发布时间较晚，但凭借技术突破迅速获得了广泛关注：

DeepSeek-V2：引入了多头潜在注意力（MLA）架构，在保持性能的同时优化了KV缓存效率
DeepSeek-V3（2024年12月）：采用MoE架构，总参数6710亿但每次推理仅激活370亿，计算效率极高
DeepSeek-R1（2025年1月）：基于V3架构的推理优化版本，在多项基准上表现优异

其他值得关注的模型

Claude 4：Anthropic的旗舰模型，SWE-bench得分80.2%，支持7小时连续工作，适合复杂工程。
Gemini 2.5 Pro：谷歌的多模态模型，200万token上下文+250 TPS推理速度，适合实时分析。
OLMo 2：以透明性著称，提供完整训练数据和代码，是研究LLM原理的"蓝图"。
KAT-V1：快手开源的"自动思考"模型，能根据任务复杂度切换思考模式，40B版本接近DeepSeek-R1性能。
Kimi K2：月之暗面最新开源的LLM，具备更强代码能力、更擅长通用Agent任务的MoE架构基础模型，总参数1T，激活参数32B。

在讲视觉语言模型和多模态大模型之前，我们得先聊聊视觉基础模型，它是大模型处理视觉输入的关键模块，有了视觉基础模型，我们才可以把视觉和大模型连接起来

视觉基础模型

视觉基础模型（Vision Foundation Models）是指通过大规模数据预训练、具备通用视觉理解或生成能力的深度学习模型。这类模型通常具有以下特征：

大规模预训练：在数百万甚至数十亿级图像或图文对上训练，学习广泛的视觉特征。
架构通用性：支持多种下游任务（如分类、检测、生成等），无需从头训练。
强泛化能力：通过提示（Prompt）、微调（Fine-tuning）等方式适配新场景。

与传统视觉模型相比，视觉基础模型的核心优势在于其“基础性”——既能直接处理具体任务，也能作为其他模型的底层支撑。

主流架构

1. 视觉Transformer（ViT）

Transformer架构最初用于自然语言处理（如BERT、GPT），后被引入视觉领域。其核心是将图像分块（Patch）转换为序列，通过自注意力机制建模全局关系。

关键技术：
- 图像分块编码：将图像分割为16×16或32×32的块，线性映射为向量序列。
- 位置编码：添加可学习的位置嵌入（Position Embedding）保留空间信息。
- 多头注意力：并行计算不同子空间的注意力，捕捉局部与全局特征。
代表模型：ViT（Vision Transformer）、DeiT（数据高效型ViT）、Swin Transformer（引入层次化窗口注意力）。

2. 卷积神经网络（CNN）与Transformer混合架构

为兼顾局部纹理与全局语义，部分模型融合了CNN的归纳偏置和Transformer的灵活性。例如：

ConvNeXt：用卷积模拟Transformer的层级设计，实现高效长程建模。
MobileViT：在轻量级CNN中嵌入Transformer块，平衡计算成本与性能。

核心任务与应用

1. 图像分类与识别

任务目标：预测图像类别或内容描述。
典型应用：ViT通过纯注意力机制实现分类，在ImageNet上达到超过CNN的准确率；CLIP通过对比学习实现零样本分类（无需训练数据）。

2. 跨模态理解（视觉-语言）

任务目标：关联图像与文本语义。
代表模型：
- CLIP：通过对比学习对齐图文特征，支持零样本检索、分类。
- BLIP-2：结合视觉编码器与大语言模型（LLM），实现视觉问答、描述生成。

3. 目标检测与定位

任务目标：识别物体位置并标注类别。
模型特点：
- GroundingDINO：结合预训练DINO检测模型与文本 grounding，实现开放词汇检测（检测训练未见的类别）。
- GLIP：将检测任务建模为图文匹配问题，统一检测与语言理解。

4. 图像分割

任务目标：按语义或实例划分像素区域。
代表工作：
- MaskFormer：将分割任务转换为掩码分类问题，统一语义分割与实例分割。
- SAM（Segment Anything Model）：基于提示（点、框、文本）分割任意对象，支持零样本迁移。

5. 图像生成与编辑

任务目标：根据文本或条件输入生成/修改图像。
关键技术：
- Stable Diffusion：潜在扩散模型（Latent Diffusion），在低维空间去噪以降低计算成本。
- ControlNet：通过额外条件（如边缘图、深度图）控制生成过程。

语音大模型

语音大模型是指在人工智能领域中，经过大规模语音数据预训练，具备处理多种语音相关任务能力的大型神经网络模型。它能够从海量语音数据中学习语音的统计规律、语义信息以及不同语言的发音特征，实现对语音信号的深度理解与生成。与传统的专一任务语音模型不同，语音大模型通常参数规模庞大，训练数据量达到百亿甚至万亿级别，并且具备跨任务泛化能力，无需针对特定任务进行大量微调即可实现较好的性能。

主流架构

语音大模型的架构发展与语言大模型类似，目前以 Transformer 架构为主。这种架构通过自注意力机制能够有效捕捉语音序列中的长距离依赖关系，适合处理语音这种时序性强的数据。在具体实现上，许多语音大模型采用序列到序列（Sequence-to-Sequence）的结构，包含编码器和解码器两部分。编码器负责将输入的语音信号转换为特征序列，通过多层 Transformer 块提取语音的上下文特征；解码器则基于编码器的输出，生成对应的文本或语音结果。例如，Whisper 模型就采用了这种架构，其编码器将语音的梅尔倒谱特征转换为特征序列，解码器通过自注意力和交叉注意力机制，结合编码器的输出生成目标文本。

此外，随着技术的发展，一些语音大模型还融入了混合专家（MoE）结构，通过多个专家网络分别处理不同的语音特征，再由路由机制选择合适的专家输出进行整合，在保证模型性能的同时提高计算效率。例如，AudioPALM 模型通过将文本和音频的 token 合并为一个多模态联合词汇表，结合 Transformer 架构实现了语音与文本的混合任务处理。

适用任务

语音识别（Speech-to-text）：将语音信号准确转换为文本，支持多种语言和方言，包括处理背景噪声、口音等复杂情况。
语音翻译（Speech-to-text translation）：直接将一种语言的语音转换为另一种语言的文本，无需先转换为源语言文本再翻译。
语音到语音翻译（Speech-to-speech translation）：将一种语言的语音直接翻译为另一种语言的语音，保留说话人的语气和情感特征。
文本到语音合成（Text-to-speech）：根据输入的文本生成自然、流畅的语音，可调整发音、语速、语调等参数。
音频分析：对音频中的声音、音乐等进行识别和分析，如判断音频中是否包含特定声音（如鸟鸣、汽车鸣笛）、识别音乐的风格和节奏等。
语音增强与编辑：去除语音中的噪声、分离目标说话人的声音、修复音频中的缺失部分等。

代表性工作

Whisper：由 OpenAI 提出的多任务语音大模型，能够执行英文语音转写、任意语言语音翻译为英文文本、非英文语音转写等任务。它在 680k 小时的多任务训练数据上进行训练，输入为语音的梅尔倒谱特征，通过 Transformer 的编码器 - 解码器结构实现序列到序列的学习。在解码器的输出序列前，会增加三个 Token 作为任务提示，指示模型执行特定任务，例如通过前缀确定是进行语音识别还是翻译。
AudioPALM：谷歌提出的文本语音大模型，将文本和音频的 token 合并为一个多模态联合词汇表，结合不同任务描述标记，实现了在任意语音和文本混合任务上训练的 decoder-only 模型。它支持语音识别、语音翻译、语音到语音翻译、文本到语音合成、机器翻译等多种任务，统一了传统上由异质模型解决的任务架构和训练流程。
Qwen2-Audio：阿里达摩院研发的音频语言模型，通过大幅扩展训练数据集（包括音频分析和语音聊天数据），并采用直接偏好优化（DPO）进一步对齐用户意图。它支持语音聊天（用户可直接用语音发出指令，无需经过自动语音识别模块）、音频分析（根据文本指令分析语音、声音、音乐等信息），并支持超过 8 种语言和方言，如中文、英语、粤语等。
MERaLiON-AudioLLM：专注于处理特定地域口音的语音模型，通过融合多种语音数据（包括文本阅读、多主题对话、交替多语言对话、模拟电话通话等）进行训练。它能够更好地理解和处理带有地域特色的口音，提高在特定场景下的语音识别和交互性能，在多语言语音处理任务中表现出色。

多模态大模型（MLLM）

多模态大模型是一种能够同时处理和理解文本、图像、语音、视频等多种模态信息，并实现跨模态交互与生成的人工智能模型。如果输入只有图像和文本，我们一般称作为视觉语言模型(Vision-Language-Model，一般也称作VLM)。它通过融合不同模态的特征，打破单一模态的局限，实现对复杂场景的全面认知。与单一模态模型相比，多模态大模型无需为每种模态单独设计模型，而是通过统一的框架学习不同模态间的内在关联，具备更强的泛化能力和任务适应性，能在多样化的实际场景中完成复杂任务。

主流架构

多模态大模型的主流架构可概括为 “预训练模态编码器 + 可训练模态连接器 + 大语言模型 + 模态解码器” 的组合模式。预训练模态编码器负责对不同模态的原始数据进行特征提取，比如视觉领域常用 CLIP、SigLIP 等模型作为图像编码器，音频领域则用 CLAP、ImageBind 处理语音或深度图等数据。这些编码器经过大规模单模态数据预训练，能高效提取模态的关键特征。可训练模态连接器是实现跨模态对齐的核心，用于将不同模态的特征转换到同一语义空间。常见的连接方式包括基于特征融合的连接器（如 Flamingo 插入额外模块实现多模态交互）、基于可学习 Query 的连接器（如 BLIP-2 用 Q-Former 抽取多模态特征）、基于特征投影的连接器（如 LLaVA 用 MLP 将视觉特征投影到文本嵌入空间）等，通过这些方式让不同模态的信息能够被大语言模型理解。大语言模型作为核心推理组件，负责处理文本指令和融合后的多模态特征，生成符合任务要求的输出。开源领域常用 Qwen、LLaMA 等系列模型，闭源模型则有 GPT-4o、Gemini 等，它们提供强大的语义理解和逻辑推理能力。模态解码器则用于将模型输出的特征向量转换为具体的模态数据，比如将文本描述转换为图像（用 Stable Diffusion）或语音，实现跨模态生成。

适用任务

多模态大模型的任务覆盖多模态理解与生成两大方向，具体包括：

视觉问答：根据图像和文本问题，生成准确的答案，例如回答 “图中有几只猫”“这张图片展示的是什么场景” 等。
图文生成：根据文本描述生成对应的图像，或为图像生成详细的文本说明，如根据 “一只坐在月亮上的兔子” 生成插画，或为街景图片生成包含建筑、行人等元素的描述。
跨模态检索：根据一种模态的输入检索相关的其他模态内容，比如用文本 “红色的玫瑰花” 检索对应的图片，或用一段音乐检索相关的视频片段。
视觉定位与分割：根据文本指令定位或分割图像中的特定区域，例如 “标记出图中戴帽子的人”“分割出画面中的小狗”。
多模态对话：结合文本、图像、语音等进行多轮交互，比如用户发送一张美食图片并询问 “这道菜怎么做”，模型既能描述做法，又能生成步骤示意图。
视频分析：理解视频内容，包括场景识别、动作分析、生成字幕等，例如分析一段体育比赛视频，识别运动项目并生成实时解说。

代表性工作

LLaVA：以视觉指令微调和为核心的开源多模态模型，采用 “CLIP 视觉编码器 + MLP 连接器 + Vicuna 语言模型” 的架构。通过两阶段训练：先在 595K 图文描述数据上训练连接器，再用 158K 指令数据同时微调连接器和语言模型，实现了良好的视觉对话和指令遵循能力，能处理图像描述、视觉推理等任务。
Qwen2.5-VL：阿里达摩院推出的多模态模型，主打细粒度理解和长上下文处理。采用动态视觉编码，支持图像动态分辨率输入和视频帧采样，通过简洁的图文对齐方法（将空间临近的视觉 patch 组合后投影到文本空间）提升效率。在大规模预训练中融合图像标题、OCR 数据、视频和智能体数据，性能在 MMMU、MathVista 等多个基准测试中领先。
GPT-4o：OpenAI 推出的闭源多模态模型，支持图文、音视频的理解与生成。具备强大的跨模态推理能力，例如能根据图表数据进行数学计算，根据语音指令生成图像，或在视频中识别物体并预测动作趋势，在复杂任务中表现出接近人类的理解水平。
InternVL3：上海 AI 实验室与清华大学合作的模型，侧重高分辨率视觉感知和多模态对齐。通过扩大模型参数量和训练数据规模，在图像分类、目标检测、视觉问答等任务中表现优异，尤其在细粒度图像理解（如识别物体细节、纹理）上优势明显，支持多种开源语言模型作为底座。

推理大模型

推理大模型聚焦于大模型推理增强技术，即通过优化提示方式、引入外部知识或改进推理流程，提升大语言模型及多模态大模型在复杂任务中的推理能力、准确性和可控性的技术集合。它不依赖模型结构的根本性改动，而是通过外部策略或辅助工具，激活模型内在的上下文学习能力、逻辑推理能力，弥补模型在知识时效性、专业领域知识储备、复杂问题拆解等方面的不足，让模型更高效地完成问答、推理、决策等任务。我们现在看到的大多数主流大模型都具备推理能力，其表现形式就是以思维链的形式对我们的问题进行理解。

主流架构

大模型推理增强的架构以 “基础模型 + 增强模块” 为核心，不改变原模型的主干结构，而是通过外挂模块或策略优化实现推理能力提升，主要包含以下关键组件：

基础模型：即预训练完成的大语言模型（如 GPT 系列、LLaMA 系列）或多模态模型（如 LLaVA、Qwen-VL），负责核心的语义理解和生成功能。
提示工程模块：通过设计优化的提示词或自动生成高质量提示，引导模型按预期逻辑输出，包括手工提示设计、自动提示优化（如 APE、OPRO）等。
外部知识检索模块：包含知识库、检索器和重排序组件。知识库存储专业领域数据或实时信息；检索器（如向量数据库）根据问题匹配相关知识；重排序组件进一步筛选优质结果，确保输入模型的信息准确有效。
推理链管理模块：用于拆解复杂问题，生成多步骤推理过程（如思维链 CoT），支持零样本、少样本推理，部分场景下还会引入逻辑校验机制（如自我反思、外部工具验证）。

这些模块通过轻量化接口与基础模型交互，形成 “输入处理 - 知识检索 - 推理生成 - 结果优化” 的闭环，在不增加模型参数量的前提下提升推理性能。

核心技术方向

提示工程：通过优化提示词激活模型能力。核心是让用户需求更清晰具体，例如使用 “逐步思考” 引导模型分解问题，或提供少量示例（少样本提示）让模型学习任务格式。自动提示优化技术（如 APE、OPRO）能让模型自主生成最优提示，通过对比不同提示的任务表现，筛选出效果最佳的指令。
上下文学习：无需微调，仅通过输入示例让模型学会新任务。零样本学习直接用任务描述引导模型输出；少样本学习则在提示中加入输入 - 输出示例，帮助模型理解任务逻辑。多模态场景中，还可通过交错的图文示例（如 Flamingo 模型的训练数据），让模型学会跨模态任务推理。
思维链与慢思考：针对复杂推理任务，让模型生成中间推理步骤。零样本思维链用 “Let's think step by step” 等提示激活推理能力；少样本思维链则通过示例展示推理过程。进阶技术如 Tree-of-Thoughts（树形推理）让模型探索多种推理路径，DeepSeek-R1 通过强化学习激励模型生成更长推理链（“慢思考”），在数学、代码等任务中显著提升准确率。
检索增强生成（RAG）：解决模型知识过时或专业知识不足的问题。流程包括：将外部知识（如文档、数据库）预处理为文本片段，通过嵌入模型转化为向量并构建索引；当用户提问时，检索器从知识库中匹配相关片段，与问题结合后输入模型，生成基于可靠知识的回答。多模态 RAG 还支持图像、音频等知识的检索，例如根据图片内容检索相关文本描述辅助问答。

代表性工作

自动提示优化（OPRO）：通过大模型自主优化提示词的技术。其核心是设计 “优化器模型”，以任务表现为目标，对比不同提示的效果并迭代改进。例如在文本分类任务中，OPRO 会生成多个候选提示，通过模型在验证集上的分类准确率筛选最优提示，最终提升任务性能。
思维链（CoT）：让模型分步拆解问题的推理技术。少样本 CoT 在提示中加入带推理步骤的示例，例如 “已知 A=3，B=5，求 A+B？示例：步骤 1：A 是 3，B 是 5；步骤 2：3+5=8；答案：8”，引导模型模仿分步推理。零样本 CoT 仅用 “逐步思考” 等提示词，即可激活模型的逻辑分解能力，在数学题、逻辑推理题中效果显著。
DeepSeek-R1：聚焦 “慢思考” 的推理增强模型。通过强化学习（GRPO 算法）激励模型生成更长、更严谨的推理链，在训练中引入 “思考过程占位符”，要求模型将推理步骤与答案分离，并用准确率和格式规范作为奖励信号。该模型在数学（如 AIME 竞赛）、代码（如 Codeforces）等复杂任务中性能接近 OpenAI O1，展示了慢思考对推理能力的提升作用。
检索增强生成（RAG）：典型如 LangChain 框架，支持将文本、PDF 等知识源构建为向量数据库，通过检索器（如 FAISS）快速匹配相关知识。例如在医疗问答中，RAG 会检索专业医学文献片段，结合用户问题输入模型，生成基于权威知识的诊断建议，解决模型医学知识不足的问题。多模态 RAG（如 RA-VQA）还能将图像转换为文本描述后检索相关知识，提升视觉问答的准确性。