LMDeploy 大模型量化部署实践 Introduction 大模型部署具有独特的背景,按照模型部署的朴实定义,是将训练好的模型在特定软硬件环境中启动的过程,使得模型能够接收输入并返回预测结果。为了满足性能和效率的要求,常常需要对模型进行优化(模型压缩和文件加速) 内存开销巨大 请求数不固定(动态Shape) LLM模型的结构相较于视觉模型而言,比较简单 如何做 Weight Only 的量化? 推理引擎