【阿里二面】大模型推理“新贵”vLLM,它到底有多快?工作原理一文看懂!

是时候准备实习和面试了。

不同以往的是,当前职场已不再是那个双向奔赴时代了。求职者在变多,HC 在变少,岗位要求还更高了。

最近,我们又陆续整理了很多大厂的面试题,帮助一些球友解惑答疑,分享技术面试中的那些弯弯绕绕。

这里,分两个主要模块介绍 AI 模型推理引擎整体架构与主要功能。回顾 AI 落地的发展过程,我们可以简单地将 AI 模型的发展分为小模型领域与大模型领域。

在小模型领域以 CNN 模型为主,模型结构变化多样分为分割,检测,识别,NLP 等各个类型。

在大模型领域,模型结构比较统一以 LLaMa 系列,Deespeek 系列,Qwen 系列等模型均起源于 Transformer 结构,新增比如 MLA,MoE 的一些局部改造。

01 小模型推理框架

在小模型领域推理框架发展已经比较成熟,从 NCNN,TNN,到后来的 MNN,TVM 整体推理引擎的架构比较完善。

图片

如上图,来源于 MNN 的介绍文档,借此图简单介绍整个 CNN 模型框架主要功能。

https://mnn-docs.readthedocs.io/en/latest/intro/about.html

(1)Tools 模块

1. Converter 模块:

a. 主要实现 Torch 模型/ONNX 模型到框架上层 IR 或者框架自定义图的转换,包括模型解析,图生成,算子替换等主要功能。

b. 主要实现自定义图的优化,包括常量折叠,算子融合,模型结构优化,静态显存管理等主要功能。

2. Compress 模块:

在满足一定精度守护的前提,实现比如模型后量化,模型剪枝等模型压缩类处理。

3. Express 模块:

支持带控制流的模型运行,比如一些跳转 OP 的实现,支持自定义算子 Plug-IN 等。

4. CV 模块:

负责实现常见的 CV 类前后处理函数,支持框架跑模型完整的 PipeLine 流程,比如一些 Resize 函数 。

(2)Runtime 模块

1. Pre-Inference 模块:

比如实现模型的内存分配与管理,动态 Shape 推导以支持模型动态 Shape 推理,进一步提升模型性能。

2. 后端设备与算子模块:

a. 各类不同算子极致优化,包括 Stressen 矩阵乘,Winograd 卷积,低精度推理等。

b. 各类不同芯片的异构执行,CPU 上的 Neon/Avx 优化,GPU 上的 OpenCL/CUDA 优化等。

02  大模型推理框架

图片

在大模型领域推理领域这几年也出现一批推理引擎,比如 LightLLM,vLLM,LM-Deploy 等。

这里以 vLLM 的推理逻辑为例简单介绍下大模型引擎如何工作。

大模型推理框架在整个模型 Build 阶段或者说初始化阶段与小模型框架有很多相似之处,比如需要算子融合,显存复用,算子替代,模型压缩。

但是大语言模型因其自回归推理的特点,又有很多推理的特性实现,包括 Continuous Batching,Paged Attention,Packing,Chunked Prefill 等。

这些特性的核心都是提升组 Batch 的并发能力,这也导致框架有其自有特点。

1. vLLM 以服务框架的形式提供一整套的API接口给调用者使用,针对不同应用场景分为 Chat 接口与 Completion 接口。

2. 在推理模块分为两大块,调度器模块与执行器模块,调度器模块主要负责组Batch的特性实现比如 Continuous Batching,Chunked Prefill,Paged Attentntion。

执行器模块主要负责模型的具体推理,包括不同 Rank 上的 Worker 执行,模型的首 Token 推理与 Decode 推理。

3. 其中 Scheduler 的 Block Manager/Block Allocate 主要负责 KVCache 的管理与分配。

总得来说,CNN 领域小模型的推理更聚焦于与芯片上模型推理加速,大模型领域因为模型结构统一推理更多侧重于动态 Batch,服务调度。

之前商界有位名人说过:“站在风口,猪都能吹上天”。这几年,AI大模型领域百家争鸣,百舸争流,明显是这个时代下一个风口!

那如何学习大模型&AI产品经理?

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

只要你是真心想学AI大模型,我这份资料就可以无偿共享给你学习。大模型行业确实也需要更多的有志之士加入进来,我也真心希望帮助大家学好这门技术,如果日后有什么学习上的问题,欢迎找我交流,有技术上面的问题,我是很愿意去帮助大家的!

如果你也想通过学大模型技术去帮助就业和转行,可以点扫描下方链接👇👇
大模型重磅福利:入门进阶全套104G学习资源包免费分享!
在这里插入图片描述

01.从入门到精通的全套视频教程

包含提示词工程、RAG、Agent等技术点
在这里插入图片描述

02.AI大模型学习路线图(还有视频解说)

全过程AI大模型学习路线

在这里插入图片描述

​​在这里插入图片描述

03.学习电子书籍和技术文档

市面上的大模型书籍确实太多了,这些是我精选出来的

在这里插入图片描述

04.大模型面试题目详解

在这里插入图片描述

在这里插入图片描述

05.这些资料真的有用吗?

这份资料由我和鲁为民博士共同整理,鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位,在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利,同时还斩获了吴文俊人工智能科学技术奖。目前我正在和鲁博士共同进行人工智能的研究。

所有的视频由智泊AI老师录制,且资料与智泊AI共享,相互补充。这份学习大礼包应该算是现在最全面的大模型学习资料了。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。

在这里插入图片描述
在这里插入图片描述

智泊AI始终秉持着“让每个人平等享受到优质教育资源”的育人理念‌,通过动态追踪大模型开发、数据标注伦理等前沿技术趋势‌,构建起"前沿课程+智能实训+精准就业"的高效培养体系。

课堂上不光教理论,还带着学员做了十多个真实项目。学员要亲自上手搞数据清洗、模型调优这些硬核操作,把课本知识变成真本事‌!

在这里插入图片描述
如果说你是以下人群中的其中一类,都可以来智泊AI学习人工智能,找到高薪工作,一次小小的“投资”换来的是终身受益!

应届毕业生‌:无工作经验但想要系统学习AI大模型技术,期待通过实战项目掌握核心技术。

零基础转型‌:非技术背景但关注AI应用场景,计划通过低代码工具实现“AI+行业”跨界‌。

业务赋能 ‌突破瓶颈:传统开发者(Java/前端等)学习Transformer架构与LangChain框架,向AI全栈工程师转型‌。

👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值