课程内容
课程地址:GitHub - InternLM/tutorial
第5节 LMDeploy 大模型量化部署实践
课程笔记
















课后作业
基础作业:
- 使用 LMDeploy 以本地对话、网页Gradio、API服务中的一种方式部署 InternLM-Chat-7B 模型,生成 300 字的小故事(需截图)
①在线转换,直接启动本地的Huggingface模型

②TurboMind推理+命令行本地对话

③TurboMind推理+APi服务
(1)启动web服务

(2)服务端本地测试

(3)SwaggerUi接口服务界面

④TurboMind服务作为后端
(1)启动TurboMind服务

(2)启动Gradio作为前端

(3)测试前端Gradio服务

⑤Gradio直接与TurboMind连接
(1)启动服务

(2)测试前端界面,生成300字的小故事

进阶作业(可选做)
- 将第四节课训练自我认知小助手模型使用 LMDeploy 量化部署到 OpenXLab 平台。
- 对internlm-chat-7b模型进行量化,并同时使用KV Cache量化,使用量化后的模型完成API服务的部署,分别对比模型量化前后(将 bs设置为 1 和 max len 设置为512)和 KV Cache 量化前后(将 bs设置为 8 和 max len 设置为2048)的显存大小。
- 在自己的任务数据集上任取若干条进行Benchmark测试,测试方向包括:
(1)TurboMind推理+Python代码集成
(2)在(1)的基础上采用W4A16量化
(3)在(1)的基础上开启KV Cache量化
(4)在(2)的基础上开启KV Cache量化
(5)使用Huggingface推理
本文介绍了如何使用LMDeploy将InternLM-Chat-7B模型部署到本地对话、网页Gradio和API服务中,并提供了基础和进阶作业,涉及模型量化、内存优化及不同部署方式的性能比较。
715

被折叠的 条评论
为什么被折叠?



