大模型推理优化宝典:从入门到精通,收藏级技术详解

大模型推理优化全解析

预备知识:关键概念与符号理解
在学习推理前,需先明确描述模型“形状”的核心符号含义,以及Transformer推理的核心模块,避免后续理解障碍。

1. 核心符号的通俗解释

这些符号都是描述模型大小、数据量的正整数或常量,会频繁用到:

符号通俗含义实例(Llama 2 13B模型)
B并发处理的请求数(比如同时给模型发10个提问)1、64、256
S输入提示的长度(比如提问有1024个汉字/单词)1024
T模型生成的响应长度(通常一次生成1个token)1
D模型隐藏层的“宽度”(越大模型越复杂)5120
FMLP层的“扩展宽度”(通常是D的4倍)13824(D=5120的4倍)
N注意力机制的总头数(头越多,关注角度越广)40
K键值(KV)头数(GQA/MLA中会比N少)40(普通注意力)/8(GQA)
H单个注意力头的“宽度”(D是N的倍数)128(D=5120÷N=40)
L模型的层数(层数越多,模型能力越强)40
V模型认识的词汇总数(比如3.2万个常用词)32000
内存带宽硬件每秒能传输的内存数据量(越大越快)H100显卡约3.35万亿字节/秒

2. Transformer推理的核心模块
推理只用到模型的“前向计算”,核心是两个模块,需理解其基本逻辑:

  • MLP层

    把模型的中间结果(比如当前token的表示)先“扩宽”再“缩窄”,让模型学习更复杂的规律(比如“猫”和“狗”的区别);

  • 注意力层

    让模型生成当前token时,“关注”输入提示中相关的部分(比如生成“它会叫”时,关注“狗”这个词),需要存储历史token的“键(K)”和“值(V)”——这就是KV缓存的来源。

第一章 推理的基础认知:从定义到核心差异

在这里插入图片描述

一、预备知识:推理与训练的本质区别

  • 训练

    给模型喂大量数据,调整模型内部的“参数”(类似人脑的神经元连接),让模型学会规律(比如区分猫和狗、理解语言);

  • 推理

    训练完成后,固定参数不变,输入“提问(提示)”让模型生成“回答(响应)”——核心诉求是“又快又准”。

二、核心内容:推理的应用场景与效率价值

1. 推理的4大实际场景
每个场景对“快”和“准”的要求不同,结合实际产品举例:

场景具体例子核心需求
实际产品落地ChatGPT聊天、Cursor代码补全、批量处理文本摘要低延迟(交互流畅)、高吞吐量
模型性能测试用MMLU数据集测模型的知识水平吞吐量优先(批量计算)
模型“思考”过程让模型分步推理(比如“先算1+2,再乘3”)低延迟(避免等待过久)
强化学习优化生成样本让“奖励模型”打分,再调整推理模型高吞吐量(需大量样本)

2. 为什么效率很重要?——“一次性成本”vs“长期成本”

  • 训练成本

    比如训练Llama 2 13B,需要百万美元级的计算资源,但只需要一次;

  • 推理成本

    如果每天要处理10亿个token(比如ChatGPT的日常用量),按H100显卡每秒处理100万个token算,需要30多张卡24小时运行——这是长期重复的成本,效率直接决定能不能商业化。

三、案例落地:推理的3个关键性能指标
从用户感知和实际需求出发,定义了3个核心指标,用“日常体验”举例:

指标通俗理解用户体验例子优化方向
TTFT(首token时间)输入提问后,等多久出第一个字/词聊天时“发完消息,几秒出第一个字”预填充阶段用小批次、优化编码
延迟(Latency)生成一个字/词需要的平均时间对话时 “后续文字出现速度”减少 KV 缓存读取、优化生成阶段
吞吐量(Throughput)每秒能生成的总字/词数批量处理10万条文本摘要要多久增大批次、模型并行

四、核心差异:推理与训练的6个关键不同
这是理解推理瓶颈的关键,通过对比让读者明白“为什么推理更难优化”:

对比维度训练(Training)推理(Inference)对推理的影响
数据处理方式一次处理整个提问+回答的序列(比如同时算100个token)一个一个token生成(比如先算“我”,再算“是”)没法用并行计算,速度慢
内存存什么存参数、梯度(调整参数的依据)、优化器状态(比如Adam)只存参数和KV缓存(历史token的K和V)内存主要被KV缓存占满
计算效率计算多、数据传输少(效率高)计算少、数据传输多(效率低)硬件经常“闲着”(等数据传输)
并发请求数固定一次处理很多请求(比如256个)请求随机到达(比如1秒来1个,下1秒来10个)很难凑齐大量请求一起处理
精度要求要高精度(比如用4字节存储数据,不然调不好参数)可降精度(比如用1字节存储,参数已经固定)能通过压缩数据省内存
什么时候停训练到损失不再下降或达到轮次生成到最大长度或“结束符”(比如“。”)要动态管理每个请求的生命周期

五、小结

  • 推理的核心是“固定参数下高效生成”,场景不同,对“快”和“准”的优先级不同;
  • 推理比训练难优化,主要因为“只能逐个生成token”和“内存被KV缓存占满”;
  • 后续所有优化技术,都是围绕“减少KV缓存”“提升计算效率”“适配动态请求”展开的。

第二章 推理的核心瓶颈:为什么模型跑不快?

一、预备知识:算术强度——判断效率的关键指标
不用公式,用通俗语言解释:

  • 算术强度

    就是“每传输1字节数据,能完成多少计算”——比如传输1字节数据,能算295次,强度就是295;

  • 硬件有“算术强度极限”

    比如H100显卡,每秒能算989万亿次,内存每秒能传3.35万亿字节,所以它的极限大概是295;

  • 关键结论

  • 如果推理的算术强度超过295:硬件能满负荷计算(高效);
  • 如果低于295:硬件大部分时间在等数据(低效,叫“内存受限”)——推理基本都处于这个状态

二、核心内容:推理为什么会“内存受限”?
通过拆解MLP层和注意力层的计算过程,说明瓶颈所在:

1. MLP层的效率问题(以一次生成1个token为例)

  • 计算过程

    要读取当前token的中间结果、3个MLP权重(扩宽、门控、缩窄用),算3次矩阵乘法,再写回结果;

  • 数据传输 vs 计算

    传输的数据量(比如读权重、读中间结果)远大于计算量——比如传输100字节数据,只算50次;

  • 效率结论

    MLP层的算术强度和并发请求数相关,要同时处理590个以上请求才能达到H100的极限,但实际推理时最多同时处理64个,还是“内存受限”。

2. 注意力层的效率问题(最核心的瓶颈)

  • 计算过程

    要读取当前token的“查询(Q)”、历史token的“键(K)”和“值(V)”,算相似度、加权求和,再写回结果;

  • 数据传输 vs 计算

    历史token越多(比如提问有1024个token),要传的K和V越多,但计算量增长慢——比如传输1000字节数据,只算100次;

  • 效率结论

    注意力层的算术强度大概只有1,远低于H100的295,不管同时处理多少请求,都永远是内存受限——这是推理跑不快的根本原因!

三、案例落地:Llama 2 13B的内存占用有多高?
通过实际计算,让读者直观感受“内存都用在哪了”(以并发1个请求、提示长度1024为例):

1. 模型参数的内存(用2字节存储每个参数,叫bf16精度)

  • 词嵌入层

    把词汇转成向量,约占328MB;

  • MLP层

    40层,每层3个权重,约占8.49GB;

  • 注意力层

    40层,每层3个权重(Q、K、V),约占3.15GB;

  • 总参数内存

    大概12GB。

2. KV缓存的内存(同样用2字节存储)

  • 每个请求的KV缓存

    要存1024个token、40个KV头、每个头128维、40层,还要存K和V两份——约占429MB;

  • 如果同时处理64个请求

    KV缓存约占27.46GB(64×429MB);

  • 总内存(64个请求)

    12GB+27.46GB≈39.46GB(H100显卡有80GB显存,刚好能装下;如果处理256个请求,就超显存了)。

四、小结

  • 推理的核心瓶颈是“内存受限”,尤其是注意力层,算术强度只有1,硬件大部分时间在等数据;
  • 内存主要用在两部分:模型参数(固定大小)KV缓存(随请求数、提示长度增加而增加)
  • 要优化推理效率,关键是“减少KV缓存的占用”或“让数据传输更快”。

第三章 有损优化技术:用少量精度换大幅效率提升

一、预备知识:有损优化的原则
“有损”不是“不准”,而是允许微小的精度损失(通常比1%还小),但必须满足实际场景需求(比如聊天、代码补全完全看不出差异),核心目标是“减少内存占用”,尤其是KV缓存。

二、核心内容:4类实用的有损优化技术

1. 减少KV缓存:从“头、层、维度”入手
KV缓存的大小和KV头数、层数、单头维度都有关。介绍3种能大幅减少KV缓存的技术:

技术原理效果(Llama 2 13B)精度影响
分组查询注意力(GQA)普通注意力中,每个“查询头”都配一个“KV头”(比如40个查询头配40个KV头);GQA把查询头分成几组,每组共享一个KV头(比如40个查询头分成5组,只配8个KV头)KV缓存能减少5倍(从429MB/请求降到85.8MB/请求)实验显示,GQA和普通注意力在知识、推理任务上的精度差异不到0.5%,基本看不出来
多头Latent注意力(MLA)普通注意力中,KV的维度和模型隐藏层一样(比如5120);MLA把KV的维度压缩到很小(比如512),只保留核心信息,还会额外加64维来补全位置信息KV缓存能减少约8.9倍(从429MB/请求降到48.2MB/请求)惊喜 MLA的精度甚至比普通注意力还高——因为压缩过程过滤了“噪声”(无用信息)
跨层注意力(CLA)普通注意力中,每一层都单独存KV缓存(40层存40份);CLA让相邻层共享一份(比如层1和层2共享,层3和层4共享)KV缓存能减少2倍(40层存20份)额外好处 不仅省内存,还能让层与层之间的信息传递更顺畅,部分任务精度还能提升1-2%

2. 替代架构:不用Transformer也能跑快
传统Transformer的“逐个生成token”是速度瓶颈,新架构通过“不逐个生成”或“简化注意力”来突破:

架构核心创新速度与精度对比(示例)
状态空间模型(SSM) (如Mamba, Jamba)不用注意力,改用“线性递归”(类似信号处理),KV缓存不再随提示长度增加而变大(固定大小)10亿参数模型对比 : · Transformer:生成1个token 0.02秒,每秒50个,知识精度65% · Mamba:生成1个token 0.005秒,每秒200个,知识精度64.5% 扩展:Jamba(520亿参数)把Transformer层和Mamba层按1:7混合,精度追上700亿参数的Transformer,速度还快3倍
扩散模型不逐个生成,而是从“随机乱码”开始,通过多步优化(比如50步)变成正常文本,每一步都能并行计算速度优势 :生成100个token只需0.1秒(Transformer要1秒) 小缺点:文本连贯性稍差,可通过增加优化步数来改善(步数越多,越连贯但越慢)

3. 量化:用更少字节存数据
模型参数和KV缓存默认用2字节存储(bf16),量化就是“用1字节甚至0.5字节存储”,核心是“不影响精度的前提下压缩”:

常用精度对比(以Llama 2 13B为例)

精度类型每个数据占多少字节内存占用(参数+KV缓存,64请求)精度损失适用场景
bf16(默认)239.46GB0%高精度场景
fp8119.73GB<1%平衡精度和内存
int8119.73GB1-3%内存紧张场景
int40.59.87GB3-5%边缘设备(手机)

重点推荐的2种量化技术

  • LLM.int8()

    解决“异常值”问题——有些参数值特别大(叫异常值,占0.1%),用1字节存会失真,所以异常值用2字节存,其余用1字节,内存减50%,精度损失不到0.5%

  • 激活感知量化(AWQ)

    按“重要性”存精度——根据输入数据的激活情况,选0.1-1%重要的参数用2字节存,其余用0.5字节,内存减75%,速度提升3.2倍,精度损失不到1%

4. 模型剪枝:删了冗余部分,模型更轻巧
剪枝就是“把模型中没用的部分删掉”,再通过“蒸馏”修复精度,用NVIDIA的方案举例:

  • 步骤1:找“没用的部分”(用1024个样本校准)
  • 要删的部分

    模型层(比如40层删到20层)、注意力头(40个头删到20个)、MLP宽度(13824缩到6912);

  • 判断标准

    删掉某部分后,模型在校准样本上的误差增加不到0.1%,就认为这部分“没用”。

  • 步骤2:删完后修复精度(蒸馏)
  • 用原130亿参数模型当“老师”,删后的32.5亿参数模型当“学生”;

  • 让学生模型学老师的输出规律,最小化两者的差异;

  • 结果

    学生模型精度达到老师的95%,速度提升4倍,内存减75%。

三、案例落地:Llama 2 13B优化效果对比(64个请求)

优化技术内存占用生成1个token的时间每秒生成token数知识任务精度
原始模型(bf16)39.46GB0.015秒420071.9%
GQA(8个KV头)17.46GB0.008秒780071.5%
GQA+LLM.int8()9.73GB0.009秒710071.2%
GQA+AWQ(int4)5.86GB0.006秒1050070.8%
剪枝+蒸馏(32.5亿)3.12GB0.003秒2100068.3%

四、小结

  • 减少KV缓存的核心是“共享”(头共享GQA、层共享CLA)和“压缩”(维度压缩MLA);
  • 量化优先选LLM.int8()(精度损失小)或AWQ(效率高),剪枝适合对速度要求极高的场景;
  • 替代架构(Mamba/扩散模型)是未来方向,能突破Transformer的速度瓶颈。

第四章 无损优化技术:不丢精度还能跑快

一、预备知识:无损优化的核心逻辑
“无损”指生成的结果和原模型完全一样(数学保证不会变准或变不准),核心思路是“利用预填充的并行性”——模型处理输入提示(预填充)时能批量计算(快),生成token时只能逐个算(慢),所以用“批量验证”减少生成次数。

二、核心内容:推测性采样——“小模型猜,大模型验”

1. 基本流程(以大模型70B、小模型8B为例)
分3步,就像“学生猜答案,老师判对错”:

步骤操作为什么快?
1小模型(8B)根据当前上下文,猜4个token(比如“今天天气”猜“很晴朗,适合”)小模型简单,猜得快
2大模型(70B)批量验证这4个token(一次看4个,不是逐个看)大模型批量处理像预填充,比逐个生成快
3大模型判断:对的token保留,错的token从错的地方重新生成保证最终结果和大模型自己生成的一样

2. 为什么结果不会变?——数学保证的通俗解释
用“二选一”例子说明(比如模型只能生成A或B):

  • 大模型的真实概率

    生成A的概率60%,B的40%;

  • 小模型的猜测概率

    生成A的概率80%(猜多了),B的20%(猜少了);

  • 修正逻辑

  1. 先算“猜多了多少”:A多猜了20%(80%-60%),B少猜了20%(40%-20%);
  2. 验证时:小模型猜A时,有60%÷80%=75%的概率保留(对应大模型的真实概率);猜B时,100%保留,再补上少猜的20%;
  • 最终结果

    生成A的概率还是60%,B还是40%,和大模型自己生成的完全一样。

3. 怎么让猜测更准?——2个扩展技巧
小模型猜得越准,大模型需要重新生成的次数越少,效率越高:

  • Medusa(多分支猜测)

    小模型不只猜1条序列,而是猜4条(比如“今天天气很晴朗”“今天天气有点阴”等),大模型选最准的一条验证,猜对率从50%升到75%;

  • EAGLE(借大模型的“思路”)

    小模型不单独训练,而是用大模型的中间结果当“提示”(比如用大模型第10层的输出),让小模型的猜测更贴近大模型的逻辑,猜对率从75%升到90%。

三、案例落地:70B大模型+8B小模型的效果

技术小模型一次猜几个token猜对率生成1个token的时间每秒生成token数精度(和70B一致)
原始大模型(不猜)--0.03秒2100100%
基础推测性采样450%0.018秒3500100%
加Medusa(多分支)475%0.012秒5200100%
加EAGLE(借思路)490%0.009秒6800100%

四、小结

  • 推测性采样是唯一“不丢精度”的优化技术,适合金融、医疗等对精度要求极高的场景;
  • 效率提升的关键是“小模型猜对率”,Medusa(多猜几条)和EAGLE(借大模型思路)能大幅提高猜对率;
  • 能在不影响结果的前提下,让大模型速度提升2-3倍。

第五章 动态工作负载调度:解决实际场景的“乱”

一、预备知识:实际推理场景的3大“乱”象
实验室里“固定批量、固定长度”的推理场景不存在,实际应用中请求是“乱”的:

  1. 请求到得乱

    比如0.1秒来1个请求,0.3秒来1个,0.5秒来8个,没法等所有请求到齐再处理;

  2. 请求长度乱

    比如一个请求的提示是128个词,另一个是1024个词,按最长的填充会浪费内存;

  3. 请求有共享内容

    比如10个请求都用“你是代码助手”当系统提示,重复存这部分的KV缓存会浪费内存。

二、核心内容:2种调度技术,让“乱”变“有序”

1. 连续批处理:不等请求到齐,来了就处理
传统“静态批处理”是“等所有请求到齐→处理完→再收下一批”,连续批处理改成“按步骤处理,动态加请求”:

  • 通俗流程(以3个请求为例)
  • 0.1秒:请求1到(提示128词),加入批次,开始处理提示;

  • 0.3秒:请求2到(提示1024词),加入批次,和请求1一起处理提示;

  • 0.5秒:请求1处理完提示,开始生成token;请求3到(提示512词),加入批次,处理提示;

  • 0.7秒:请求1生成完10个token(完成,移除批次);请求2和3开始生成token;

  • 核心

    :不等待,新请求来了就加,老请求完了就删,始终让硬件“满负荷”。

  • 解决“长度乱”的技巧:选择性批处理
  • 注意力层

    不同长度的请求没法一起算,就单独算每个请求的注意力;

  • MLP层

    把所有请求的中间结果拼在一起算(比如128词+1024词+512词,拼成1664词的长度),减少计算次数。

  • 效果

    请求平均等待时间减少40%,每秒处理的token数增加50%。

2. 分页注意力:像电脑存文件一样存KV缓存
传统KV缓存是“给每个请求分配一块连续的内存”,就像“给每个文件分配一块连续的硬盘空间”,会导致“碎片”(比如文件删了,留下小块空间用不了);分页注意力借鉴电脑“分页存文件”的思路:

  • 核心步骤
  1. 把KV缓存分成“小块”:比如每个小块存256个token的KV数据;

  2. 用“块表”记位置:每个请求的KV缓存不再是连续的,而是由多个小块组成,用“块表”记录这些小块在哪(比如请求2的KV缓存由块1、块3、块5组成);

  3. 共享小块,省内存

    如果多个请求共享系统提示(比如“你是代码助手”),就共享这部分的KV小块,要修改时再复制一份(叫“写时复制”)。

  • 解决的问题
  • 内部碎片

    请求生成100个token,只用1个小块(256个token),不会浪费156个token的空间;

  • 外部碎片

    小块可以灵活组合,不会有“小块用不了”的情况;

  • 共享内容

    共享系统提示的KV小块,10个请求能省9份内存。

  • 效果

    KV缓存的内存利用率提升3-5倍,vLLM框架用这个技术,吞吐量比传统框架高10倍。

三、案例落地:vLLM的动态调度效果(64个请求)

调度技术内存碎片率请求平均等待时间每秒生成token数能同时处理的最大请求数
静态批处理+传统KV50%1.2秒180032
连续批处理+传统KV50%0.72秒270048
连续批处理+分页注意力10%0.58秒5400128

四、小结

  • 连续批处理解决“请求到得乱”的问题,核心是“动态调整批次,不等待”;
  • 分页注意力解决“内存碎片”和“共享内容”的问题,核心是“小块存储+共享”;
  • 两者结合是工业界的主流方案(比如vLLM、NVIDIA Tensor-RT-LLM),能让推理系统适配实际场景的“乱”。

第六章 总结:怎么选优化技术?未来方向是什么?

一、优化技术选择指南(按场景选)

核心需求推荐技术组合适用场景例子
高精度(不能错)推测性采样 + 连续批处理 + 分页注意力金融分析、医疗诊断
低延迟(要快)GQA + AWQ + Mamba实时聊天、语音转文字
省内存(设备差)剪枝 + 蒸馏 + int4量化手机APP、嵌入式设备
高并发(多请求)连续批处理 + 分页注意力 + GQAAPI服务(比如给企业提供调用)
长文本(提示长)MLA + 分页注意力 + 扩散模型文档摘要、长对话

二、未来优化方向

  1. 架构更高效

    线性注意力(比如Based)、混合架构(比如Jamba)会成为主流,进一步突破速度瓶颈;

  2. 技术融合更紧密

    比如“分页注意力+推测性采样”一起用,减少大模型验证时读取KV缓存的次数;

  3. 自适应优化

    模型自己判断请求类型(短提示/长提示、高精度/低精度),自动选最优技术(比如短提示用推测性采样,长提示用MLA)。

三、学习建议

  1. 先动手试

    用vLLM跑一次Llama 2 7B,对比“原始模型”和“开GQA+分页注意力”的速度差异,直观感受优化效果;

  2. 再看原理

    读《Scaling Book》(Transformer推理章节)和vLLM论文,不用纠结公式,重点理解“为什么这些技术能省内存/提速度”;

  3. 做对比实验

    用同一批数据,测试不同优化技术的“速度-精度”,比如测AWQ和LLM.int8()的差异,记录结果并分析原因。

四、最终小结

  • 推理优化的核心是“平衡精度、速度、内存”,没有“万能技术”,只有“适合场景的技术”;
  • 内存受限是推理的根本瓶颈,大部分技术都是围绕“减少KV缓存”或“优化数据传输”展开;
  • 系统级优化(连续批处理、分页注意力)和算法级优化(推测性采样、GQA)结合,是未来推理系统的发展方向。

普通人如何抓住AI大模型的风口?

领取方式在文末

为什么要学习大模型?

目前AI大模型的技术岗位与能力培养随着人工智能技术的迅速发展和应用 , 大模型作为其中的重要组成部分 , 正逐渐成为推动人工智能发展的重要引擎 。大模型以其强大的数据处理和模式识别能力, 广泛应用于自然语言处理 、计算机视觉 、 智能推荐等领域 ,为各行各业带来了革命性的改变和机遇 。

目前,开源人工智能大模型已应用于医疗、政务、法律、汽车、娱乐、金融、互联网、教育、制造业、企业服务等多个场景,其中,应用于金融、企业服务、制造业和法律领域的大模型在本次调研中占比超过 30%。
在这里插入图片描述

随着AI大模型技术的迅速发展,相关岗位的需求也日益增加。大模型产业链催生了一批高薪新职业:
在这里插入图片描述

人工智能大潮已来,不加入就可能被淘汰。如果你是技术人,尤其是互联网从业者,现在就开始学习AI大模型技术,真的是给你的人生一个重要建议!

最后

只要你真心想学习AI大模型技术,这份精心整理的学习资料我愿意无偿分享给你,但是想学技术去乱搞的人别来找我!

在当前这个人工智能高速发展的时代,AI大模型正在深刻改变各行各业。我国对高水平AI人才的需求也日益增长,真正懂技术、能落地的人才依旧紧缺。我也希望通过这份资料,能够帮助更多有志于AI领域的朋友入门并深入学习。

真诚无偿分享!!!
vx扫描下方二维码即可
加上后会一个个给大家发

在这里插入图片描述

大模型全套学习资料展示

自我们与MoPaaS魔泊云合作以来,我们不断打磨课程体系与技术内容,在细节上精益求精,同时在技术层面也新增了许多前沿且实用的内容,力求为大家带来更系统、更实战、更落地的大模型学习体验。

图片

希望这份系统、实用的大模型学习路径,能够帮助你从零入门,进阶到实战,真正掌握AI时代的核心技能!

01 教学内容

图片

  • 从零到精通完整闭环:【基础理论 →RAG开发 → Agent设计 → 模型微调与私有化部署调→热门技术】5大模块,内容比传统教材更贴近企业实战!

  • 大量真实项目案例: 带你亲自上手搞数据清洗、模型调优这些硬核操作,把课本知识变成真本事‌!

02适学人群

应届毕业生‌: 无工作经验但想要系统学习AI大模型技术,期待通过实战项目掌握核心技术。

零基础转型‌: 非技术背景但关注AI应用场景,计划通过低代码工具实现“AI+行业”跨界‌。

业务赋能突破瓶颈: 传统开发者(Java/前端等)学习Transformer架构与LangChain框架,向AI全栈工程师转型‌。

image.png

vx扫描下方二维码即可
在这里插入图片描述

本教程比较珍贵,仅限大家自行学习,不要传播!更严禁商用!

03 入门到进阶学习路线图

大模型学习路线图,整体分为5个大的阶段:
图片

04 视频和书籍PDF合集

图片

从0到掌握主流大模型技术视频教程(涵盖模型训练、微调、RAG、LangChain、Agent开发等实战方向)

图片

新手必备的大模型学习PDF书单来了!全是硬核知识,帮你少走弯路(不吹牛,真有用)
图片

05 行业报告+白皮书合集

收集70+报告与白皮书,了解行业最新动态!
图片

06 90+份面试题/经验

AI大模型岗位面试经验总结(谁学技术不是为了赚$呢,找个好的岗位很重要)图片
在这里插入图片描述

07 deepseek部署包+技巧大全

在这里插入图片描述

由于篇幅有限

只展示部分资料

并且还在持续更新中…

真诚无偿分享!!!
vx扫描下方二维码即可
加上后会一个个给大家发

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值