LMDeploy 量化部署 LLM&VLM实战——学习笔记

最新推荐文章于 2025-12-06 17:00:00 发布

原创最新推荐文章于 2025-12-06 17:00:00 发布 · 365 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#学习 #笔记 #人工智能

本文介绍了通过《LMDeploy量化部署LLM&VLM实战》课程，对大模型部署的关键背景、挑战、LMDeploy技术解决方案（包括模型减枝、知识蒸馏和量化）以及多GPU部署进行了详细学习，但因GitHub访问问题，动手实践部分暂无更新。

通过第四期课程《LMDeploy 量化部署 LLM&VLM实战》的学习，对LMDeploy量化部署有了进一步深刻认识，由于此时github不能正常访问，目前只看视频学习做笔记。

课程视频：https://www.bilibili.com/video/BV1tr421x75B/

课程文档：https://github.com/InternLM/Tutorial/blob/camp2/lmdeploy/README.md

课程主要从大模型部署背景、方法、LMDeploy简介和动手实践四个环节进行。

1 部署背景

简单说明大模型在软件工程及AI领域的使用及关键作用，部署所涉及应用场景等。

接着就大模型部署所面临的挑战：计算量巨大、内存开销巨大、访问瓶颈及动态请求量大等几个维度困难度，并实例量化说明。

2 部署方法

针对大模型部署所面临的挑战，对模型可以做三种技术处理方法：模型减枝、知识蒸馏及量化等。

3 LMDeploy简介

LMDeploy 由 MMDeploy 和 MMRazor 团队联合开发，是涵盖了 LLM 任务的全套轻量化、部署和服务解决方案。其核心功能如下：

多 GPU 部署和量化，性能卓越。

LMDeploy 支持多种推理后端。

4 动手实践

由于此时github不能正常访问，待后续补充。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

hazhanggavin

关注关注

8
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

LMDeploy量化部署LLM&VLM实战（笔记）

2301_80703617的博客

04-15

801

服务器端:CPU部署，单GPU/TPU/NPU部署，多卡/集群部署.移动端/边缘端:移动机器人，手机…….LMDeploy 由 MMDeploy 和 MMRazor 团队联合开发是涵盖了 LLM 任务的全套轻量化、部署和服务解决方案。核心功能包括高效推理、可靠量化、便捷服务和有状态推理。

第四节课《LMDeploy量化部署LLM&VLM实战》学习笔记

weixin_59512778的博客

04-16

927

LMDeploy是涵盖LLM任务的全套轻量化、部署和服务解决方案。核心功能包括高效推理、可靠量化、便捷服务和状态推理。

1 条评论您还未登录，请先登录后发表或查看评论

书生浦语训练营2期-第五节课—LMDeploy 量化部署 LLM-VLM 实践笔记及作业

m0_55303420的博客

04-12

1206

打开InternStudio平台，创建开发机。填写开发机名称；；选择10% A100*1GPU；点击“立即创建”。注意请不要选择的镜像，新版本的lmdeploy会出现兼容性问题。排队等待一小段时间，点击“进入开发机”。点击左上角图标，切换为终端(Terminal)模式。

LMDeploy 量化部署 LLM-VLM 实践——笔记

YYYYbhjbhkv_的博客

04-22

1829

在人工智能领域，模型部署是实现深度学习算法落地应用的关键步骤。简单来说，模型部署就是将训练好的深度学习模型在特定环境中运行的过程。LMDeploy 由 MMDeploy 和 MMRazor 团队联合开发，是涵盖了 LLM 任务的全套轻量化、部署和服务解决方案。核心功能包括高效推理、可靠量化、便捷服务和有状态推理。高效的推理LMDeploy 开发了 Continuous Batch，Blocked K/V Cache，动态拆分和融合，张量并行，高效的计算 kernel 等重要特性。

LMDeploy 量化部署 LLM-VLM 实践——作业

YYYYbhjbhkv_的博客

04-22

1071

出人意料的是，用中文拼英提问，得到的回答还可以，虽然不如前两次提问时回答的详细，但这次能肯定的回答这是只老虎，还是比直接用中文好上不少的。好一个 ☞ 🐅 → 🦅 ，虽然在括号里有说明这可能是一只老虎，但全篇回答以老鹰描述还是架不住，只能说 Llava 模型对中文的支持性还是比较低。可以看到，LMDeploy 的推理速度是 Transformer库的 6.74 倍！这个地方，按理来说，显存占用应该会降低很多的，但不知道为什么我运行下来以后提升只有一点点。可以看到，这里的英文回答对图片的分析还是比较清楚的。

学习笔记 | LMDeploy 量化部署 LLM-VLM 实践

DrFlown的博客

04-22

2481

根据InternLM2技术报告提供的模型参数数据，以及KV Cache空间估算方法，以FP16为例，在batch-size为16、输入512 tokens、输出32 tokens的情境下，仅20B模型就会产生10.3GB的缓存。该过程在新版本的LMDeploy中是自动进行的，无需用户操作。 TurboMind是LMDeploy团队开发的一款关于LLM推理的高效推理引擎，它的主要功能包括：LLaMa 结构模型的支持，continuous batch 推理模式和可扩展的 KV 缓存管理器。

LMDeploy量化部署LLM&VLM实践

Moo_n_earth的博客

06-08

937

进入开发机，切换为终端(Terminal)模式。

LMDeploy 量化部署 LLM&VLM实战--笔记

taotao_zhang1的博客

04-12

1831

打开InternStudio平台，创建开发机。填写开发机名称；选择镜像；选择10% A100*1GPU；点击“立即创建”。排队等待一小段时间，点击“进入开发机”。点击左上角图标，切换为终端(Terminal)模式。

LMDeploy量化部署LLM&VLM实践-笔记五

qq_46576562的博客

04-26

412

LMDeploy TurboMind 引擎拥有卓越的推理能力，在各种规模的模型上，每秒处理的请求数是 vLLM的1.36~1.85 倍。LMDeploy 由 MMDeploy 和 MMRazor 团队联合开发是涵盖了 LLM 任务的全套轻量化、部署和服务解决方案。本次课程由西北工业大学博士生、书生·浦源挑战赛冠军队伍队长、第一期书生·浦语大模型实战营优秀学员【安泓郡】讲解【OpenCompass 大模型评测实战】课程。核心功能：模型高效推理、模型量化压缩、服务化部署。大模型部署挑战二：内存开销巨大。

【InternLM 实战营第二期笔记+作业05】LMDeploy量化部署LLM&VLM实践

zzzibo的博客

05-17

1383

在软件工程中，部署通常指的是将开发完毕的软件投入使用的过程。在人工智能领域，模型部署是实现深度学习算法落地应用的关键步骤。简单来说，模型部署就是将训练好的深度学习模型在特定环境中运行的过程LMDeploy 由 MMDeploy 和 MMRazor 团队联合开发是涵盖了 LLM 任务的全套轻量化、部署和服务解决方案。核心功能包括高效推理、可靠量化、便捷服务和有状态推理。

LMDeploy量化部署LLM&VLM实战（作业）

2301_80703617的博客

04-16

621

课程文档：https://github.com/InternLM/Tutorial/blob/camp2/lmdeploy/README.md。先使用Transformer库运行模型直接运行InternLM2-Chat-1.8B模型，下载模型，如果是在InternStudio开发机上，可以由开发机的共享目录。新建Python源代码文件，打开，然后填入以下内容，运行后，可以通过命令行窗口直接与模型对话，运行后，可以通过命令行窗口直接与模型对话。然后运行，进入网址，就可以用了。新建文件夹，填入以下内容，

【InternLM 实战营第二期笔记5】LMDeploy 量化部署 LLM-VLM 实践

qq_45776432的博客

04-16

1302

本笔记主要是关于大模型部署的一些介绍以及LMDeploy的一些相关实践。

LMDeply 量化部署LLM-VLM实践

weixin_46761589的博客

04-18

1285

LMDeply 涵盖了LLM任务的全套轻量化、部署和服务器解决方案。核心功能包括高效的推理、可靠量化、便捷服务和有状态推理。LMDeploy核心功能：高效推理： lmdeploy chat-h模型量化压缩： imdeploy lite-h服务化部署：imdeploy serve-h。

探索 10bit 100MS/s 流水线Pipelined ADC电路：0.18um工艺下的宝藏学习资源

最新发布

qq__27699885的博客

12-06

354

10bit 100MS/s 流水线Pipelined ADC电路，采用0.18um工艺，直接可以用，直接可以跑仿真，包含实际电路和各模块的测试电路，有效位9.5bit，适合学习。最近在研究ADC电路相关内容，发现了一个超赞的 10bit 100MS/s 流水线Pipelined ADC电路，基于0.18um工艺设计，简直就是学习ADC的神器，必须来和大家分享分享。

vite学习

qq_41549657的博客

12-04

614

核心优势极速开发启动：开发阶段不打包，直接让浏览器加载原生ESM,配合ebuild预购建第三方依赖，启动时间从webpack的秒级变为毫秒级热更新（HMR）快:只更新修改的模块，而非全量重建，大型项目热更新耗时<10ms按需编译：开发阶段仅编译当前请求的模块，而非全量打包内置对Typescript、JSX、CSS、静态资源的支持，无需复杂配置生产环境优化：基于Rollup打包，输出高度优化的静态资源，兼顾开发销量和生产性能<docs>Vite 处理.vue。

算法题归类学习

qq_43751506的博客

12-05

349

删除排序链表中的重复元素II（LeetCode 82） - 全删除。删除排序链表中的重复元素（LeetCode 83） - 保留一个。删除链表的倒数第N个结点（LeetCode 19） - 快慢指针。二叉树的最大深度（LeetCode 104） - DFS/BFS。二叉树的最近公共祖先（LeetCode 236） - 递归查找。二叉树的层序遍历（LeetCode 102） - BFS队列。二叉树的中序遍历（LeetCode 94） - 递归/迭代。环形链表（LeetCode 141） - 快慢指针判环。

【Prompt学习技能树地图】LangChain原理及应用操作指南

致力于成为一名data scientist 的奋斗者

12-03

682

基础层主要解决两个核心问题：模型调用的统一化和数据存储的标准化。通过抽象接口设计，为上层应用提供了稳定、可预测的编程模型。表3.2：基础层核心组件概览组件类别核心功能解决的关键问题典型实现模型抽象统一模型调用接口屏蔽不同模型API差异存储抽象统一数据访问方式标准化各类存储系统操作文档处理多格式文档加载与转换统一文档处理流程PDF、HTML、Markdown解析接口规范定义标准化调用契约确保组件间兼容性BaseLLM、VectorStore接口。

学习笔记二十三：支持向量机-间隔与支持向量

dengdaijc的专栏

12-02

707

本文介绍了支持向量机(SVM)的基本原理。SVM通过在样本空间中寻找最优划分超平面来实现分类，其核心思想是最大化分类间隔以提高泛化能力。关键概念包括：划分超平面的数学表示（由法向量和位移项定义）、支持向量（决定超平面位置的最近样本点）以及间隔（反映分类置信度）。SVM的基本型是一个凸二次规划问题，通过最小化法向量范数平方来最大化间隔，同时满足所有样本正确分类的约束条件。该方法具有理论严谨、模型稀疏、全局最优等优势，是经典的分类学习算法。

【办公软件学习】

qq_44901836的博客

12-03

582

办公软件学习技巧，解决办法

LLM & 连班学习

03-14

### 连续学习与大型语言模型（LLM）的关系连续学习（Continual Learning），也被称为增量学习或终身学习，是一种让机器学习模型能够随着时间推移不断适应新数据的能力[^1]。这种能力对于大型语言模型（LLM）尤为重要，因为LLM通常需要处理多样化的任务并应对动态变化的数据环境。 #### 1. **连续学习的基础概念** 连续学习的目标是在不遗忘已有知识的前提下，持续从新的经验中获取信息。这对于LLM来说尤其具有挑战性，因为在引入新数据时可能会发生灾难性遗忘现象——即模型在学习新任务的同时丢失了对旧任务的知识掌握能力[^2]。因此，在设计适用于LLM的连续学习方法时，需特别关注如何平衡新旧知识的学习过程。 #### 2. **连续学习在LLM中的具体应用** 以下是几个主要方面展示了连续学习如何应用于LLM： - **在线微调** 当LLM被部署于真实世界场景下时，它可能接触到大量未见过的新颖语料库。通过采用连续学习策略，可以实现对这些新增加样本的有效利用而无需重新训练整个模型结构[^3]。例如，某些技术允许仅更新少量参数来适配最新观察到的信息流。 ```python import torch class ContinualLearningModel(torch.nn.Module): def __init__(self, base_model): super(ContinualLearningModel, self).__init__() self.base_model = base_model def forward(self, input_ids): outputs = self.base_model(input_ids) return outputs.logits ``` - **个性化定制服务** 针对不同用户的偏好调整预训练好的通用版LLMs成为一种趋势。借助连续学习机制，可以根据每位个体的需求逐步优化专属版本的大规模自然语言处理器件而不影响其他用户群体体验质量。 - **多模态融合扩展** 随着视觉、音频等多种感知形式加入文本领域内交互流程之中，单一维度表达已无法满足日益增长复杂度需求。此时运用连续学习可以帮助跨媒体类型间建立联系从而形成更加全面深入理解体系。 #### 3. **面临的挑战与发展前景** 尽管如此，仍然存在诸多难题亟待解决：比如怎样衡量当前状态下的记忆保留程度；又或者是探索更高效的正则项设置方案减少计算资源消耗等问题都需要进一步探讨研究。然而不可否认的是，随着理论突破和技术进步，未来我们有望看到更多具备强大泛化能力和自适应特性的先进LLM问世。 --- ###