InternLM大模型实战-5.LMDeploy大模型量化部署实战

本文介绍了大模型部署中的挑战,如内存需求、动态shape问题,以及针对这些问题的部署方案,包括LMDeploy框架的使用和量化技术(如awq算法)的应用。此外,Turbomind推理引擎和apiserver的高效服务也被提及。

前言

本文是对于InternLM全链路开源体系系列课程的学习笔记
【LMDeploy 大模型量化部署实践】 https://www.bilibili.com/video/BV1iW4y1A77P/?share_source=copy_web&vd_source=99d9a9488d6d14ace3c7925a3e19793e

笔记正文

大模型部署背景

  • 内存开销巨大:7B模型仅权重就需要14+G内存;采用子回归生成token带来开销
  • 动态shape:请求数、token数,不固定
  • 结构简单,transfomer结构,且大部分是decoder-only

部署挑战

设备、推理、服务

部署方案

在这里插入图片描述
方案则是有很多的推理框架适用于不同运算端。

LMDeploy框架

很多这个框架的内容在第一节课程中已经讲解过了,本段主要讲解了这个框架的核心功能

量化

在这里插入图片描述
为什么做量化,首先就是显存。
然后为什么做权重的量化,因为这即降低了计算密集,又降低了访存密集,(因为数值的位数减少了且权重的大小减少了)。
在这里插入图片描述
如何去做:使用awq算法,比gptq算法的推理速度更快,量化的时间更短。

推理引擎Turbomind

  1. 持续批处理
  2. 有状态的处理
  3. 分块锁定KV缓存
  4. 高性能cuda kernel

在这里插入图片描述

推理服务api server

可以通过lmdeploy很方便地启动api server用于调用。可以访问页面获取更多调用的格式的信息。


作业后面做。

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

早上真好

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值