下一个AI风口已定：口语语音大模型（SLM）！再不跟上，你将错过整个人机交互的未来！_on the landscape of spoken language models: a comp-优快云博客

《On The Landscape of Spoken Language Models: A Comprehensive Survey》这篇论文是一篇关于口语语言模型（SLMs）的全面综述，核心是想梳理SLM领域的发展现状——毕竟SLM还没像文本LLM那样有统一的定义和框架，论文希望把零散的研究串起来，帮大家理解SLM是怎么从“针对单个语音任务的定制模型”，往“能处理各种语音任务的通用系统”演进的。

论文中给出的近些年SLM发展时间线：

01 引言：SLM是怎么来的？（类比NLP的发展）

先得从NLP的发展说起，因为SLM的思路其实是抄文本LLM的作业：NLP已经从“每个任务都从头训一个模型”，走到“用预训练LLM（比如GPT），给点自然语言指令就能做任意文本任务”，甚至能当聊天助手。

语音处理领域也在走类似的路，但慢了半拍——现在主流的语音任务（比如ASR语音识别、ST语音翻译、SLU语音理解），还是靠“预训练语音编码器（比如wav2vec 2.0）+ 任务专属的预测头”来做；只有ASR、ST这种高资源任务，有一些大的有监督模型（比如Whisper）表现不错。

最近终于开始搞SLM了，目标是做“语音版LLM”——给点自然语言指令，就能处理各种语音任务。但问题是，“SLM”这个词现在特别乱，有人指纯语音模型，有人指语音+文本混合模型。所以论文先给了个“通用语音处理系统”的定义，作为SLM的终极目标：

能处理语音输入/输出，也能加文本输入/输出；
能做任意语音任务（不管是传统的ASR，还是复杂的语音推理）；
用自然语言当指令（比如“把这段语音翻译成英文”），而不是用任务代码或隐藏提示。

还得解释下：为啥不直接把“ASR（转语音成文本）+ 文本LLM（处理文本）+ TTS（转文本成语音）”串起来用？因为有些任务需要语音里的额外信息——比如说话人的情绪、语气、语速，这些ASR转文本时会丢；而且串联会累积误差（比如ASR认错一个词，后面LLM全错），端到端SLM能避免这个问题。

02 SLM的整体架构：从输入到输出的流程

图1把所有SLM的通用架构拆清楚了，不管是哪种SLM，都逃不开这几步：

输入处理

文本输入（Xtxt）：就是普通的文本token序列（比如“把这段语音翻译成英文”）。
语音输入（Xsp）：是连续的波形（比如一段录音），第一步要过语音编码器（Encsp），转成“语音表示（Hsp）”——要么是连续的向量，要么是离散的token（后面会细讲）。

模态对齐：适配器（Adapter）的作用

语音和文本的格式差太远了（比如语音序列比文本长很多），所以需要模态适配器（Adp）来“翻译”：

语音适配器（Adpsp）：把语音表示（H^sp）转成和序列模型兼容的格式，还能调整长度（比如缩短语音序列，让它和文本长度差不多）。
文本适配器（Adptxt）：一般就是个嵌入层，把文本token转成向量，长度不变。

序列模型（Seq）：核心生成模块

适配器处理完后，交给序列模型（比如Transformer）生成输出，通常是自回归的（一个接一个生成token）。根据SLM类型不同，生成的东西不一样：

纯SLM：只输入输出语音，生成“语音表示（Asp）”，最后过语音解码器（Decsp）转成波形。
Speech+Text SLM：联合处理语音和文本，能生成混合的语音+文本序列（比如一边生成文字，一边生成对应的语音）。
Speech-aware Text SLM：结合文本LLM和语音编码器，输入语音+文本指令，输出文本（比如输入一段语音+“总结这段内容”，输出文字总结）。

输出解码

如果生成的是语音表示，就用语音解码器转成能听的波形；如果是文本，直接输出就行。

03 SLM的核心组件：每个部分怎么设计？

这部分是重点，论文详细讲了SLM的4个关键组件：语音编码器、模态适配器、序列模型、语音解码器，还配了很多图帮理解。

3.1 语音编码器：把波形变成“能用的表示”

语音是连续波形，没法直接给LLM用，所以第一步要处理成“模型能懂的语言”。图2展示了流程：波形→连续特征→（可选）量化成离散token→（可选）时间压缩。

第一步：提取连续特征

传统特征：比如mel谱图（经典语音处理方法）；
SSL模型特征：用自监督预训练的语音模型（比如wav2vec 2.0、HuBERT、WavLM），这些模型在海量无标注语音上训过，能抓语言相关的信息；
有监督预训练模型特征：比如Whisper、USM（这些是训过ASR/ST的模型，直接用它们的中间层输出）；
神经音频编解码器特征：比如SoundStream、EnCodec（本来是做音频压缩的，中间层输出的特征能保留声学细节）。

第二步：（可选）量化成离散token

很多SLM会把连续特征转成离散token（类似文本的subword），方便用LLM的“下一个token预测”目标训练。论文把token分了两类，差别很大：

第三步：（可选）时间压缩

语音token序列通常很长（比如一秒钟对应几十个token），LLM处理起来费劲，所以要压缩：

去重（Deduplication）：把连续相同的token合并成一个（比如“aaaabbbbb”→“ab”），但会丢时长信息，所以有些模型会单独建模时长；
BPE（字节对编码）：像文本LLM那样，把频繁出现的token组合成新token（比如“ab”出现多了，就变成一个新token），减少序列长度。

3.2 模态适配器：让语音和文本“说同一种话”

语音编码器的输出和文本LLM的输入格式不兼容（比如维度不一样、长度差太多），适配器就是干“翻译”的，常见的有5种：

线性变换/词汇扩展：最简单的方式——用线性层把语音token转成文本LLM的嵌入维度，相当于给LLM的词汇表加了“语音token”。比如SpeechGPT给LLaMA的词汇表加了HuBERT的语音学token，Mini-Omni给Qwen加了8层编解码器token。
带步幅的CNN：用CNN的步幅（stride）缩短语音序列长度，同时保留时间信息（比如ASR任务需要知道词的顺序），有些会用池化层替代。
CTC-based压缩：用CTC来选“重要的语音帧”——CTC会给每个帧分配一个概率，挑概率高的非空白帧，合并重复帧，既能缩短长度，又能保留关键语言信息。
Q-Former：把任意长度的语音序列转成固定长度的向量（比如M个向量）。原理是训一组“查询向量（Q）”，通过交叉注意力和语音序列交互，最后输出M个向量，适合处理长语音。有些模型会用“窗口级Q-Former”，把语音切成小段分别处理，保留时间信息。
AlignFormer：结合了CTC压缩和Q-Former，在冻结LLM的情况下，只用ASR数据就能让模型具备零样本指令跟随能力，比单独用Q-Former在SQA（语音问答）、语音翻译上表现更好。

论文还提了个实验结果：Lu等人对比了Q-Former和CNN适配器，发现Q-Former在Dynamic-SUPERB（语音任务基准）上表现更好，因为它能更好地对齐语音和文本表示。

3.3 序列模型：怎么生成语音/文本？

序列模型是SLM的“大脑”，核心挑战是：语音token有不同粒度（粗/细），还可能要和文本token混合生成。论文总结了两种关键生成策略，都配了图。

策略1：分层生成（处理不同粒度的语音token）

语音token分“粗”（比如语音学token、编解码器第一层token）和“细”（比如编解码器深层token），分层生成能平衡质量和效率，有4种方式：

图3(a) 先粗后细：先生成所有粗token，再根据粗token生成细token。比如AudioLM，先生成语音学token（粗），再生成编解码器第一层token（细），最后生成深层token（更细）；SoundStorm把后两步改成非自回归，提速；VALL-E用文本转写指导粗token生成，再非自回归生成细token。
图3(b) 交错粗/细token：同一时间步里，先生成粗token，再生成对应的细token。比如SpiRit-LM，把语音学token、音调token、风格token和文本token交错生成，提升语音的表现力。
图3© 时间+深度生成：用大Transformer建模“时间上的顺序”（比如前一帧和后一帧的关系），用小Transformer头建模“同一时间步里不同粒度token的关系”（比如同一帧的粗/细token）。比如UniAudio、Moshi，能高效生成多粒度token。
图3(d) 延迟模式：粗token和细token之间有时间差（比如细token比粗token晚1步生成），这样生成细token时能参考“未来的粗token”，提升连贯性。比如pGSLM，语音学token和韵律token（音调、时长）之间有延迟，生成的语音更自然。

策略2：文本-语音混合生成（解决长度不匹配）

文本和语音token长度差很多（比如一句话文本10个token，语音要100个token），混合生成要解决“对齐”问题，有4种方式：

图4(a) Mini-Omni：文本token后面加padding（空白token），文本先生成完，再根据文本生成语音token，像TTS一样。
图4(b) LLaMA-Omni：每个文本token后面加固定长度的padding，语音token也加padding，让两者长度一样，然后用CTC损失训对齐。
图4© Moshi：动态加padding——训的时候用时间对齐的语音-文本数据，让模型学“该在哪加padding”，让文本和语音长度匹配，生成更灵活。
图4(d) SpiRit-LM：直接把文本和语音token交错排成一个序列（比如“how 12 71 you 16 3”），训的时候用预对齐的数据，语义连贯性更好。

3.4 语音解码器：把“语音表示”转成能听的波形

最后一步，把序列模型生成的“语音表示”（连续向量或离散token）转成波形，有4种常见解码器：

传统声码器：比如HiFi-GAN、WaveFit，处理连续特征（如mel谱图），像传统TTS那样合成语音。
基于单元的声码器：专门处理语音学token，比如HiFi-GAN的变种，还能加时长模型补过去重丢失的时长信息（比如GSLM用这个）。
编解码器解码器：如果生成的是音频编解码器token（比如EnCodec、Mimi的token），直接用预训练的编解码器解码器转波形，不用额外训（比如AudioLM、VALL-E）。
其他：比如Spectron用WaveFit声码器处理生成的mel谱图，CosyVoice用专门的解码器处理语音学token。

04 SLM的训练策略：怎么让模型“会干活”？

SLM的训练分两步：预训练（打基础）和后训练（调能力），类比文本LLM的“预训练+指令微调”。

4.1 预训练：不针对具体任务，先学好“语音/文本的规律”

预训练的目标是让模型掌握语音/文本的分布，不追求能处理多任务，常见3类：

生成式预训练
纯语音预训练（p(speech)）：用无标注语音训“纯SLM”，比如GSLM——用HuBERT把语音转成语音学token，训自回归模型预测下一个token，能生成简单的语音，但长语音不连贯；后续pGSLM加了韵律信息（音调、时长），生成更自然。
联合语音-文本预训练（p(text,speech)）：用对齐的语音-文本数据（比如语音+转写）训模型，同时建模两者的联合分布，比如Moshi、SpiRit-LM——Moshi用预训练文本LLM继续训语音+文本token，能做长对话；SpiRit-LM用交错的语音-文本token训，语义理解更好（比如StoryCloze测试得分高）。
文本预训练后继续训：先训好文本LLM，再用语音数据继续训，让LLM“懂语音”，比如TWIST——用OPT（文本LLM）初始化，再用语音数据训，词汇和句法能力提升（用sWUGGY、sBLIMP测试）。
条件预训练（p(text|speech)）

用有监督的“语音→文本”任务（比如ASR、ST）初始化模型，比如用Whisper、OWSM（这些模型训过大量语音转文本数据，已经会对齐语音和文本），再微调就能做更多任务。比如UniverSLU从Whisper开始训，加指令后能做各种SLU任务。

语音-文本模态对齐

让语音和文本的表示“对齐”，这样模型才能用文本LLM的能力处理语音，有两种方式：

隐式对齐：比如用ASR数据——给文本LLM输入文本转写，让它生成回答；给SLM输入对应的语音，训SLM生成同样的回答，让两者输出一致；或者训SLM做音频描述（比如“这段语音里有人在笑”），发现只训音频描述就能泛化到其他任务。
显式对齐：直接最小化语音特征和文本嵌入的距离，比如Wav2Prompt——冻结文本LLM的嵌入，训模型把语音特征转成和文本嵌入L2距离最小的向量，实现对齐。

4.2 后训练：让模型“会按指令干活”

预训练的模型只会“学规律”，不会“按指令做任务”，后训练就是补这个，目标是让模型接近“通用语音处理系统”，有3类：

1. 任务特定训练

用“任务标识符”（比如p(·|speech, ⟨taskspecifier⟩)）告诉模型做什么任务，比如Qwen-Audio——先训ASR、ST、情感识别等任务，用任务标识符区分，再做后续调优。

2. 指令微调（核心！）

用“自然语言指令+语音+正确输出”训模型，比如输入“把这段语音翻译成英文”+ 语音，输出英文翻译。指令数据怎么来？有4种方式：

任务数据转指令：把原来的任务数据（比如ASR的“语音+文本”）改成指令格式（比如“识别这段语音→文本”）；
SQA（语音问答）数据：用LLM（比如ChatGPT）根据语音转写生成“问题-答案”对（比如语音转写是“苹果富含维生素”，生成问题“苹果富含什么？”，答案“维生素”）；
文本指令数据合成：用TTS把文本指令数据（比如ChatGPT的对话）转成语音，生成“语音指令+文本回答”数据；
组合指令：把多个任务的指令拼起来（比如“先识别这段语音，再把识别结果翻译成法文”），提升模型处理复杂任务的能力。

实验发现：用多样的指令数据训，模型能处理没见过的任务（比如训了ASR和翻译，能做语音总结）。

3. 聊天SLM训练

专门训能和人对话的SLM，分两个方向：

基于聊天文本LLM：比如Qwen-Audio-Chat——用文本LLM生成“围绕语音的对话”（比如给一段语音，让LLM生成“用户问：这段语音讲了什么？助手答：…”），再用这些数据训SLM；
纯语音/语音+文本对话：用TTS把文本对话数据转成语音对话（比如SpeechGPT），或者用真实语音对话数据（比如Moshi用真实对话数据训，能处理打断、插话等自然对话场景）。

4.3 其他训练小技巧

参数高效微调（PEFT）：SLM很大，不用全训——比如冻结语音编码器和LLM，只训适配器；或者给LLM加LoRA（低秩适配器），只训少量参数。
渐进式微调：先训简单任务（比如ASR，抓内容），再训复杂任务（比如情感识别，抓语音细节），避免模型学偏；训对话SLM时，先训多通道音频，再训真实对话，提升稳定性。
经验回放：后训练时加一些预训练数据，防止模型“忘光”之前学的能力（比如忘了文本LLM的推理能力）。
偏好优化：用RLHF（人类反馈强化学习）让模型生成更符合人类偏好的内容，比如Qwen2-Audio用RLHF提升回答质量；Align-SLM用AI反馈替代人类评估，降低成本。

05 代表性SLM模型：三类模型各有什么特点？

论文按之前的分类，总结了有代表性的SLM，每个类都有核心模型和实验结果：

5.1 纯SLM：只玩语音，不碰文本

核心是建模“语音的分布（p(speech)）”，用无标注语音训，代表模型：

GSLM（2021，早期经典）：用HuBERT把语音转成语音学token，训自回归模型预测下一个token，能生成简单的语音，但长语音不连贯；
pGSLM（2022）：在GSLM基础上，联合预测语音学token和韵律token（音调、时长），生成的语音更有表现力；
TWIST（2023）：用文本LLM（OPT）初始化，再用语音数据训，词汇和句法能力提升（sWUGGY、sBLIMP测试得分高）；
AudioLM（2023）：分层生成——先语音学token，再编解码器token，生成的语音质量高，还能保持长时一致性（比如几分钟的独白）；
SpeechSSM（2024）：用状态空间模型（不是Transformer），生成的长语音（几分钟）更自然，语义更连贯。

5.2 Speech+Text SLM：语音文本一起玩

核心是建模“语音+文本的联合分布（p(text,speech)）”，能理解也能生成两者，代表模型：

Moshi（2024，开源亮点）：第一个能实时对话的开源SLM，用预训练文本LLM（Helium）初始化，再训语音+文本token的联合预测，最后用对话数据训双工模式；能生成几分钟的独白，也能做多轮对话，支持语音输入输出；
SpiRit-LM（2025）：用交错的语音-文本token训，只做预训练不做后训练，但语义理解比纯SLM好（StoryCloze测试得分高）；
SpeechGPT（2023）：先输出文本，再输出对应的语音，适合turn-taking（轮流说话）对话，但不能处理插话；
Mini-Omni/LLaMA-Omni（2024）：用延迟模式生成语音token，文本和语音分通道输出，也是turn-taking结构，灵活性不如Moshi。

5.3 Speech-aware Text SLM：文本LLM+语音编码器，输出文本

核心是“借文本LLM的指令跟随能力，处理语音任务”，输入语音+文本指令，输出文本，代表模型：

WavPrompt（2022，早期）：wav2vec 2.0（语音编码器）+ GPT-2（文本LLM），冻结GPT-2，只训语音编码器；能做简单的语音分类，但不能处理没见过的任务；
SALMONN（2024，经典）：Vicuna（文本LLM）+ 语音编码器，先训ASR和音频描述，再训多任务；冻结大部分参数，只训适配器和LoRA；能泛化到没见过的任务（比如语音总结）；
Qwen-Audio（2023）：训语音编码器和LLM，从多任务（ASR、情感识别、音频描述）开始，再加聊天微调，鲁棒性强；后续Qwen2-Audio加了偏好优化，回答质量更高；
DeSTA（2024）：用“描述性语音-文本对齐”任务训——让模型同时识别语音内容和描述语音细节（比如“说话人是女性，语气开心”），不用专门的指令数据也能做指令跟随；
UniverSLU（2024）：从Whisper（条件预训练）开始，先加任务标识符训，再加自然语言指令训，能做各种SLU任务（比如意图识别、槽位填充）。

06 双工语音对话：让SLM“边听边说”

传统SLM是“turn-taking”（你说一句，我答一句），但真人对话是“双工”的——能边听边说（比如你说话时，我插一句“嗯”），还能被打断。

论文讲了两种实现双工的方式：

方式1：双通道

SLM有两个通道：

监听通道：一直听用户的语音输入；
说话通道：生成SLM的语音输出，同时跟踪自己说了什么；

模型每一步都输出（语音或静音token），实现“边听边说”。代表模型：dGSLM（用双塔Transformer处理两个通道）、Moshi（修改Transformer输入结构，支持双通道）。

方式2：时间复用（©和(d)）

固定块切换：

比如每处理0.5秒用户语音，就切换到说话模式生成0.5秒语音，轮流来；代表模型：Synchronous LLM、OmniFlatten；

模型自主切换：

监听时，模型每步预测是否生成“[speak]”token——生成了就切换到说话模式，直到生成“[listen]”token再切回来；用户能在SLM说话时插话，影响模型输出；代表模型：Wang等人2024的工作。

07 SLM的评估：怎么判断模型好不好用？

SLM能力多，评估不能只看一个指标，论文分了三类评估方式，还整理了常用基准：

7.1 似然评估：看模型“懂不懂语音规律”

预训练阶段常用，给模型两个序列：一个正常语音（正例），一个异常语音（负例，比如把词换成非词、语法错、停顿位置不对），看模型给正例的概率是不是更高。常用指标：

sWUGGY：评词汇能力（正例“brick”，负例“blick”）；
sBLIMP：评句法能力（正例“我吃饭”，负例“我饭吃”）；
StoryCloze：评语义能力（给一段故事，选正确的结尾）；
ProsAudit：评韵律能力（正例正常停顿，负例停顿在奇怪位置）；
SALMon：评声学和韵律一致性（比如同一说话人前后音色是否一致，语气和内容是否匹配）。

7.2 生成式评估：看模型“生成得好不好”

（1）生成质量

语音质量：用MOSNet（客观指标）或人评（主观MOS分）；
一致性：用人或预训练分类器评“生成的语音和输入是否一致”（比如说话人音色、情绪是否不变）；
内容质量：把生成的语音转文本，用文本LLM（比如GPT-4）评分，或对比参考文本（用BLEU、ROUGE）。

（2）任务能力

SQA（语音问答）：比如LLaMA-Questions、TriviaQA（合成语音版），评模型“听语音答问题”的 accuracy；
指令跟随：用动态基准，比如：

Dynamic-SUPERB（Phase2有180个任务，涵盖分类、回归、生成，比如ASR、情感识别、语音翻译）；
AIR-Bench：包含分类和开放式聊天问题；
VoiceBench：评语音助手能力（开放问答、参考问答、多选择、指令跟随）；
MMAU：评语音推理（比如“两个说话人是什么关系”）；
AudioBench：涵盖语音理解、音频场景识别、语音分析（口音、性别、情绪）。

风格对齐：评模型“生成符合指定风格的语音”能力，比如StyleTalk（语调、情绪）、E-chat200（情绪）、SD-Eval（口音、年龄、音量）。

7.3 可信度评估：看模型“靠不靠谱”

幻觉：SLM会“瞎编”——比如音频里没有狗叫，问“有狗叫吗？”，模型说“有”。Kuan等人发现：SLM比“ASR+文本LLM”串联模型幻觉多，提出“分步提示”（先让模型描述音频，再根据描述回答问题）能缓解；
毒性：评生成语音的文本转录是否有冒犯内容（比如SpiRit-LM、GPT-4o会测这个）；
偏见：看模型是否因说话人特征（性别、年龄、口音）改变回答。Lin等人测试发现当前SLM偏见少，但可能是因为模型还不会区分说话人特征；GPT-4o用多样语音后训，偏见控制得好；
深度伪造：SLM能模仿真人语音，容易被滥用。Wu等人做了CodecFake数据集（SLM生成的伪造语音），发现基于这个数据集训的检测模型能有效识别伪造语音。

08 挑战与未来方向：SLM还缺什么？

虽然SLM发展快，但离“通用语音处理系统”还远，论文提了几个关键挑战：

（1）模型架构问题

语音表示没统一：到底用连续特征还是离散token？用哪种token（语音学/编解码器）？不同选择影响后续设计；
语音文本结合方式没统一：适配器用哪种？序列生成用分层还是混合？没系统对比过；
效率低：SLM太大太慢，不适合实时/端侧场景（比如手机上用），需要压缩算法和更高效的架构。

（2）训练数据问题

缺高质量数据：尤其是指令微调、聊天对话的数据，现在很多用合成数据（比如TTS转的），真实数据少；
数据集不统一：不同模型用不同数据集，没法公平对比“是架构好还是数据好”；
缺缩放研究：不知道SLM随模型大小、数据量增长的规律（比如文本LLM有缩放定律），只有少数研究（比如Maimon等人用单GPU24小时训出高质量纯SLM）。

（3）评估问题

基准没普及：Dynamic-SUPERB这些基准刚出来，没成为通用标准；
任务覆盖不全：语音任务比文本多（比如说话人识别、韵律分析），现有基准还没覆盖全；
生成评估没标准：语音生成的质量（比如自然度）主观因素多，没统一的客观指标。

（4）开源和包容性问题

少全开源模型：很多模型只放权重，不放代码、数据，没法复现和对比；
包容性差：现在主要关注高资源语言（英语、中文），低资源语言、方言、有语音障碍的用户（比如口吃）没覆盖到；
安全性：深度伪造、偏见这些问题还没彻底解决，需要专门的语音安全方案。

09 总结

这篇综述的最大价值是“统一”——统一了SLM的定义、分类和架构，把之前零散的研究按“组件-训练-评估”串起来，还指出了未来要解决的问题。现在SLM还在快速发展，比如2024年出了GPT-4o、Gemini 1.5这些多模态模型，能处理语音，但细节没公开；开源模型比如Moshi、Qwen-Audio也在进步。未来只要解决数据、效率、评估这些问题，SLM早晚能像文本LLM一样，成为通用的语音助手。

10 附录图表

表格3

作为正文第 5 节 “代表性 SLM 综述” 的补充，系统整理了纯 SLM、语音 + 文本 SLM、语音感知文本 SLM 三大类模型的核心组件（语音编码器、文本 LM、语音解码器、模态适配器等），方便研究者对比不同模型的技术路线差异。

表格4：

正文第 5.3 节 “语音感知文本 SLM”，整理代表性模型的训练阶段、任务类型、训练数据规模、评估基准及关键发现，为该类模型的技术选型提供实证参考。

如何学习大模型 AI ？

我国在AI大模型领域面临人才短缺，数量与质量均落后于发达国家。2023年，人才缺口已超百万，凸显培养不足。随着Al技术飞速发展，预计到2025年，这一缺口将急剧扩大至400万，严重制约我国Al产业的创新步伐。加强人才培养，优化教育体系，国际合作并进，是破解困局、推动AI发展的关键。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

2025最新大模型学习路线

明确的学习路线至关重要。它能指引新人起点、规划学习顺序、明确核心知识点。大模型领域涉及的知识点非常广泛，没有明确的学习路线可能会导致新人感到迷茫，不知道应该专注于哪些内容。

对于从来没有接触过AI大模型的同学，我帮大家准备了从零基础到精通学习成长路线图以及学习规划。可以说是最科学最系统的学习路线。

在这里插入图片描述

针对以上大模型的学习路线我们也整理了对应的学习视频教程，和配套的学习资料。

大模型经典PDF书籍

新手必备的大模型学习PDF书单来了！全是硬核知识，帮你少走弯路！

在这里插入图片描述

配套大模型项目实战

所有视频教程所涉及的实战项目和项目源码等
在这里插入图片描述

博主介绍＋AI项目案例集锦

MoPaaS专注于Al技术能力建设与应用场景开发，与智学优课联合孵化，培养适合未来发展需求的技术性人才和应用型领袖。

在这里插入图片描述

这份完整版的大模型 AI 学习资料已经上传优快云，朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【`保证100%免费`】

在这里插入图片描述

为什么要学习大模型？

2025人工智能大模型的技术岗位与能力培养随着人工智能技术的迅速发展和应用，大模型作为其中的重要组成部分，正逐渐成为推动人工智能发展的重要引擎。大模型以其强大的数据处理和模式识别能力，广泛应用于自然语言处理、计算机视觉、智能推荐等领域，为各行各业带来了革命性的改变和机遇。

在这里插入图片描述

适合人群

在校学生：包括专科、本科、硕士和博士研究生。学生应具备扎实的编程基础和一定的数学基础，有志于深入AGI大模型行业，希望开展相关的研究和开发工作。
IT行业从业人员：包括在职或失业者，涵盖开发、测试、运维、产品经理等职务。拥有一定的IT从业经验，至少1年以上的编程工作经验，对大模型技术感兴趣或有业务需求，希望通过课程提升自身在IT领域的竞争力。
IT管理及技术研究领域人员：包括技术经理、技术负责人、CTO、架构师、研究员等角色。这些人员需要跟随技术发展趋势，主导技术创新，推动大模型技术在企业业务中的应用与改造。
传统AI从业人员：包括算法工程师、机器视觉工程师、深度学习工程师等。这些AI技术人才原先从事机器视觉、自然语言处理、推荐系统等领域工作，现需要快速补充大模型技术能力，获得大模型训练微调的实操技能，以适应新的技术发展趋势。

课程精彩瞬间

大模型核心原理与Prompt：掌握大语言模型的核心知识，了解行业应用与趋势；熟练Python编程，提升提示工程技能，为Al应用开发打下坚实基础。

RAG应用开发工程：掌握RAG应用开发全流程，理解前沿技术，提升商业化分析与优化能力，通过实战项目加深理解与应用。

Agent应用架构进阶实践：掌握大模型Agent技术的核心原理与实践应用，能够独立完成Agent系统的设计与开发，提升多智能体协同与复杂任务处理的能力，为AI产品的创新与优化提供有力支持。

模型微调与私有化大模型：掌握大模型微调与私有化部署技能，提升模型优化与部署能力，为大模型项目落地打下坚实基础。