前言
这里,分两个主要模块介绍 AI 模型推理引擎整体架构与主要功能。回顾 AI 落地的发展过程,我们可以简单地将 AI 模型的发展分为小模型领域与大模型领域。
在小模型领域以 CNN 模型为主,模型结构变化多样分为分割,检测,识别,NLP 等各个类型。
在大模型领域,模型结构比较统一以 LLaMa 系列,Deespeek 系列,Qwen 系列等模型均起源于 Transformer 结构,新增比如 MLA,MoE 的一些局部改造。
1、小模型推理框架
在小模型领域推理框架发展已经比较成熟,从 NCNN,TNN,到后来的 MNN,TVM 整体推理引擎的架构比较完善。
如上图,来源于 MNN 的介绍文档,借此图简单介绍整个 CNN 模型框架主要功能。
https://mnn-docs.readthedocs.io/en/latest/intro/about.html
(1)Tools 模块
-
Converter 模块:
a. 主要实现 Torch 模型/ONNX 模型到框架上层 IR 或者框架自定义图的转换,包括模型解析,图生成,算子替换等主要功能。
b. 主要实现自定义图的优化,包括常量折叠,算子融合,模型结构优化,静态显存管理等主要功能。
-
Compress 模块:
在满足一定精度守护的前提,实现比如模型后量化,模型剪枝等模型压缩类处理。
-
Express 模块:
支持带控制流的模型运行,比如一些跳转 OP 的实现,支持自定义算子 Plug-IN 等。
-
CV 模块:
负责实现常见的 CV 类前后处理函数,支持框架跑模型完整的 PipeLine 流程,比如一些 Resize 函数 。
(2)Runtime 模块
-
Pre-Inference 模块:
比如实现模型的内存分配与管理,动态 Shape 推导以支持模型动态 Shape 推理,进一步提升模型性能。
-
后端设备与算子模块:
a. 各类不同算子极致优化,包括 Stressen 矩阵乘,Winograd 卷积,低精度推理等。b. 各类不同芯片的异构执行,CPU 上的 Neon/Avx 优化,GPU 上的 OpenCL/CUDA 优化等。
2、大模型推理框架
在大模型领域推理领域这几年也出现一批推理引擎,比如 LightLLM,vLLM,LM-Deploy 等。
这里以 vLLM 的推理逻辑为例简单介绍下大模型引擎如何工作。
大模型推理框架在整个模型 Build 阶段或者说初始化阶段与小模型框架有很多相似之处,比如需要算子融合,显存复用,算子替代,模型压缩。
但是大语言模型因其自回归推理的特点,又有很多推理的特性实现,包括 Continuous Batching,Paged Attention,Packing,Chunked Prefill 等。
这些特性的核心都是提升组 Batch 的并发能力,这也导致框架有其自有特点。
1. vLLM 以服务框架的形式提供一整套的API接口给调用者使用,针对不同应用场景分为 Chat 接口与 Completion 接口。
2. 在推理模块分为两大块,调度器模块与执行器模块,调度器模块主要负责组Batch的特性实现比如 Continuous Batching,Chunked Prefill,Paged Attentntion。
执行器模块主要负责模型的具体推理,包括不同 Rank 上的 Worker 执行,模型的首 Token 推理与 Decode 推理。
3. 其中 Scheduler 的 Block Manager/Block Allocate 主要负责 KVCache 的管理与分配。
总得来说,CNN 领域小模型的推理更聚焦于与芯片上模型推理加速,大模型领域因为模型结构统一推理更多侧重于动态 Batch,服务调度。
最后
为什么要学AI大模型
当下,⼈⼯智能市场迎来了爆发期,并逐渐进⼊以⼈⼯通⽤智能(AGI)为主导的新时代。企业纷纷官宣“ AI+ ”战略,为新兴技术⼈才创造丰富的就业机会,⼈才缺⼝将达 400 万!
DeepSeek问世以来,生成式AI和大模型技术爆发式增长,让很多岗位重新成了炙手可热的新星,岗位薪资远超很多后端岗位,在程序员中稳居前列。
与此同时AI与各行各业深度融合,飞速发展,成为炙手可热的新风口,企业非常需要了解AI、懂AI、会用AI的员工,纷纷开出高薪招聘AI大模型相关岗位。
最近很多程序员朋友都已经学习或者准备学习 AI 大模型,后台也经常会有小伙伴咨询学习路线和学习资料,我特别拜托北京清华大学学士和美国加州理工学院博士学位的鲁为民老师给大家这里给大家准备了一份涵盖了AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频 全系列的学习资料,这些学习资料不仅深入浅出,而且非常实用,让大家系统而高效地掌握AI大模型的各个知识点。
这份完整版的大模型 AI 学习资料已经上传优快云,朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【保证100%免费
】

AI大模型系统学习路线
在面对AI大模型开发领域的复杂与深入,精准学习显得尤为重要。一份系统的技术路线图,不仅能够帮助开发者清晰地了解从入门到精通所需掌握的知识点,还能提供一条高效、有序的学习路径。
但知道是一回事,做又是另一回事,初学者最常遇到的问题主要是理论知识缺乏、资源和工具的限制、模型理解和调试的复杂性,在这基础上,找到高质量的学习资源,不浪费时间、不走弯路,又是重中之重。
AI大模型入门到实战的视频教程+项目包
看视频学习是一种高效、直观、灵活且富有吸引力的学习方式,可以更直观地展示过程,能有效提升学习兴趣和理解力,是现在获取知识的重要途径
光学理论是没用的,要学会跟着一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。
海量AI大模型必读的经典书籍(PDF)
阅读AI大模型经典书籍可以帮助读者提高技术水平,开拓视野,掌握核心技术,提高解决问题的能力,同时也可以借鉴他人的经验。对于想要深入学习AI大模型开发的读者来说,阅读经典书籍是非常有必要的。
600+AI大模型报告(实时更新)
这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。
AI大模型面试真题+答案解析
我们学习AI大模型必然是想找到高薪的工作,下面这些面试题都是总结当前最新、最热、最高频的面试题,并且每道题都有详细的答案,面试前刷完这套面试题资料,小小offer,不在话下
这份完整版的大模型 AI 学习资料已经上传优快云,朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【保证100%免费
】
