目录 1 简介 2 基础知识 2.1 LLM应用部署背景 2.2 LLM应用部署的方法 2.3 LMDeploy简介 2.4 Huggingface与TurboMind 3 实践 3.1 安装基础环境 3.1.2 安装docker方法 3.1.3 lmdeploy环境 3.2 使用 3.2.1 lmdeploy常用指令查看 3.2.2 使用LMDeploy与模型对话(chat) 3.2.3 LMDeploy模型量化(lite) 3.2.3.1 设置最大KV Cache缓存大小 3.2.3.2 使用W4A16量化 3.2.4.LMDeploy服务(serve) 3.2.4.1启动API服务器(后端) 3.2.4.2使用vscode terminal进行通讯。运行后,可以通过命令行窗口直接与模型对话: 3.2.4.3 使用Gradio作为前端,启动网页客户端。 作业 3.2.5 python集成 3.2.5.1 Python代码集成运行1.8B模型 3.2.5.2 向TurboMind后端传递参数 作业 3.2.6 使用LMDeploy运行视觉多模态大模型(作业) 3.3 报错和问题解决 欢迎关注我的公众号,后续将会及时更新更多AI前沿内容和实践。 公众号:Aifastlane 1 简介 视频 | 文档 | 作业 | lmdeploy-github | lmdeploy官方文档 |