LMDeploy Windows 平台最佳实践

最新推荐文章于 2025-09-15 10:02:45 发布

原创

最新推荐文章于 2025-09-15 10:02:45 发布 · 1k 阅读

8 ·

CC 4.0 BY-SA版权

文章标签：

#windows

Windows 是全球范围内最流行的操作系统之一，许多企业和个人用户都在使用 Windows 系统。通过在 Windows 系统上支持 LLM 的推理，许多办公软件、聊天应用等都可以受益于 LLM 的技术，为用户提供更智能、更个性化的服务。

LMDeploy 支持在 Windows 平台进行部署与使用，本文会从以下几个部分，介绍如何使用 LMDeploy 部署 internlm2-chat-1_8b 模型。

环境配置

安装显卡驱动 & CUDA Toolkit

LMDeploy 项目链接：https://github.com/InternLM/lmdeploy

环境配置

安装显卡驱动 & CUDA Toolkit

下载链接：

https://developer.nvidia.com/cuda-12-1-1-download-archive?target_os=Windows&target_arch=x86_64

成功安装后，打开 Powershell 后，环境变量 CUDA_PATH 不为空。

安装 LMDeploy

conda create -n lmdeploy python=3.10
conda activate lmdeploy
pip install lmdeploy --extra-index-url https://download.pytorch.org/whl/cu121

需要注意的是，--extra-index-url 不能省略，不然会安装 CPU 版本的 PyTorch。

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

书生·浦语

关注关注

25
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

降本增效利器：LMDeploy 部署 LLM 全流程详解

举世誉之而不加劝，举世非之而不加沮，定乎内外之分，辩乎荣辱之境，斯已矣。

06-26

1964

本文介绍使用 LMDeploy 部署 LLM

LMDeploy 大模型量化部署

weixin_55982578的博客

02-26

1608

LMDeploy是LLM在英伟达设备上部署的全流程解决方案。包括模型轻量化、推理和服务

参与评论您还未登录，请先登录后发表或查看评论

LMDeploy Windows部署指南：单卡环境快速搭建

最新发布

gitblog_00498的博客

09-15

1066

你是否曾因Windows系统缺乏官方支持而放弃部署高性能LLM（Large Language Model，大型语言模型）？作为占全球桌面端90%份额的操作系统，Windows在AI部署领域长期处于"二等公民"地位——多数开源项目优先支持Linux，导致开发者面临驱动适配难、编译报错多、性能损耗大等问题。LMDeploy 0.10.0版本正式解除这一限制，通过TurboMind引擎实现Windows...

lmdeploy 源码在windows本地编译

xiongtiancheng的博客

06-29

521

本文记录了在Windows系统上编译lmdeploy工程源码的过程。主要步骤包括：通过git克隆源码后，安装CUDA 12.8和cuDNN，更新显卡驱动解决安装失败问题。编译过程中遇到pybind11缺失问题，通过重装Python解决；后又出现编译器版本不匹配问题，通过安装VS2019工具集V142解决。最后发现编译卡顿是由于从GitHub下载第三方库缓慢，通过修改CMakeLists.txt改用本地路径后成功完成编译。整个过程中解决了多个依赖问题和网络下载瓶颈，最终实现了lmdeploy的成功编译。

8G 显存玩转书生大模型 Demo

f_ckhell的博客

07-27

377

5.使用 Streamlit 部署 InternLM2-Chat-1.8B 模型。在download_mini.py中写入下面代码。运行成功，输入个“你好，介绍下你自己”运行download_mini.py。向cli_demo.py写入内容。2.创建cli_demo.py。创建文件夹并写入下载代码。

LMDeploy 量化部署 LLM&VLM实战--笔记

taotao_zhang1的博客

04-12

1826

打开InternStudio平台，创建开发机。填写开发机名称；选择镜像；选择10% A100*1GPU；点击“立即创建”。排队等待一小段时间，点击“进入开发机”。点击左上角图标，切换为终端(Terminal)模式。

LMDeploy 量化部署 LLM&VLM 实践

qq_42137576的博客

05-23

1480

LMDeploy 量化部署 LLM&VLM 实践

第五节课——LMDeploy 量化部署 LLM 实践（笔记+作业）

qq_42866802的博客

06-10

551

在软件工程中，部署通常指的是将开发完毕的软件投入使用的过程。在人工智能领域，模型部署是实现深度学习算法落地应用的关键步骤。简单来说，模型部署就是将训练好的深度学习模型在特定环境中运行的过程。

LMDeploy 量化部署 LLM 实践+进阶

nlpx2000的博客

04-11

1476

pipe = pipeline('liuhaotian/llava-v1.6-vicuna-7b', backend_config=backend_config) 非开发机运行此命令。# pipe = pipeline('liuhaotian/llava-v1.6-vicuna-7b', backend_config=backend_config) 非开发机运行此命令。internlm2-chat-1_8B模型量化部署与llava多模态模型llava-v1.6-7b部署实践。

LMDeploy高效部署Llama-3-8B，1.8倍vLLM推理效率

xxue345678的博客

10-30

1038

Llama 3 近期重磅发布，发布了 8B 和 70B 参数量的模型，LMDeploy 对 Llama 3 部署进行了光速支持，同时对 LMDeploy推理 Llama 3 进行了测试，在公平比较的条件下推理效率是 vLLM 的 1.8 倍。本文将分为以下几个部分来介绍，如何使用LMDeploy来部署 Llama3（以 InternStudio 的环境为例）环境、模型准备LMDeploy Chat CLI 工具LMDeploy 模型量化（lite）LMDeploy 服务（serve）

lmdeploy v0.9.2 发布详解：功能升级、性能优化与兼容性提升全解析

福大大架构师每日一题

07-27

1084

lmdeploy是一个面向大型语言模型（Large Language Models, LLMs）的部署框架，旨在简化并加速模型推理过程，支持多种硬件架构与优化引擎。该项目持续活跃，社区贡献热烈，频繁发布更新，确保其功能和性能紧贴最新AI技术发展动态。此次v0.9.2版本，是继0.9.1之后的重要升级版本，不仅强化了模型支持能力和系统兼容性，还修正了若干关键BUG，优化了运行时表现和整体用户体验。因此，对于正在使用lmdeploy进行模型部署的用户和研发团队来说，及时了解并升级至该版本至关重要。

LMDeploy 的介绍与部署

Orkeii的博客

04-24

2117

LMDeploy的部署与模型介绍

LMDeploy量化部署LLM&VLM

weixin_45924641的博客

04-18

2858

LMDeploy量化部署InternLM2-chat-1.8B & LLaVa

大模型部署指南之 LMDeploy 篇：从模型压缩到生产级API的完整武器库

冷不丁

05-10

2468

LMDeploy 是由 MMDeploy 和 MMRazor 团队开发的全套轻量化、部署和服务解决方案，专为本地化私有部署设计。其核心优势包括极致性能优化、生产级部署、多格式兼容和开放生态。LMDeploy 支持从模型量化到生产级API服务的全流程优化，特别适合需要低延迟、高并发的企业应用。通过内置的量化工具和高并发管理，LMDeploy 显著提升了推理速度并降低了显存占用，使得在消费级显卡上也能流畅运行大模型。此外，LMDeploy 提供了开箱即用的部署工具，简化了从模型转换到服务部署的流程，大幅缩短了部

LMDeploy 量化部署 LLM 实践

weixin_44497664的博客

04-26

524

LMdeploy 有两个功能：量化与部署。量化加快推理速度减少现存占用，部署可以用客户端、网页以及Api迅速调用方便开发者使用。

LMDeploy本地部署轻松玩转DeepSeek

weixin_41688410的博客

01-30

4235

本文主要介绍了LMDeploy 是如何本地部署大模型，并且以deepseek为例，从环境搭建，模型选择，推理，部署，量化全流程保姆级从0到1详细记录了每个过程。它是一个专为大语言（LLMs）和视觉-语言模型（VLMs）设计的高效部署工具箱，可以帮我们轻松玩转各种大模型，让我们对于大模型应用游刃有余，如鱼得水，挥洒自如。

LMDeploy 大模型量化部署实践

zhjunqin的博客

01-14

2023

下图中，左边主要对比 LMDeploy 自身在量化前后的性能；右边主要对比 vLLM 和 LMDeploy 的性能对比。量化后，显存占用量显著减少，其中包括权重和 KV Cache。由于 GPU 的计算需要将权重从 GPU 主存 -> GPU 共享内存，因此量化显著减少了数据的传输量，提高了整体效率。AWQ 算法全称：Activation-aware Weight Quantization。

lmdeploy

06-04

### LMDeploy 安装指南与使用教程 LMDeploy 是一个用于部署大语言模型（LLM）的工具，旨在简化模型服务化的过程。以下是关于 LMDeploy 的安装和使用的详细信息。 #### 环境准备在开始安装之前，请确保系统已安装以下依赖项： - Python 3.7 或更高版本[^1] - CMake（建议版本为 3.16 或更高） - GCC（建议版本为 7 或更高）可以通过以下命令检查 Python 版本： ```bash python --version ``` 如果需要安装或升级 Python，请参考官方文档或使用包管理器进行安装。 #### 安装 LMDeploy LMDeploy 的安装可以通过源代码编译完成。以下是具体步骤： 1. **克隆仓库** 使用 `git` 克隆 LMDeploy 的官方仓库： ```bash git clone https://github.com/your-repo/lmdeploy.git cd lmdeploy ``` 2. **创建配置文件** 在源目录中创建 `TutorialConfig.h.in` 文件，并添加以下内容： ```cpp // the configured options and settings for Tutorial #define Tutorial_VERSION_MAJOR @Tutorial_VERSION_MAJOR@ #define Tutorial_VERSION_MINOR @Tutorial_VERSION_MINOR@ ``` 这一步是为了定义版本信息，便于后续编译过程中的配置。 3. **安装依赖项** 使用 `pip` 安装必要的 Python 包： ```bash pip install -r requirements.txt ``` 4. **编译项目** 使用 CMake 编译 LMDeploy： ```bash mkdir build && cd build cmake .. make -j$(nproc) ``` 5. **验证安装** 完成编译后，可以运行测试脚本来验证安装是否成功： ```bash python tests/test_lmdeploy.py ``` #### 使用教程 LMDeploy 提供了多种功能，包括模型加载、推理服务化等。以下是基本的使用示例： 1. **加载模型** 使用以下代码加载预训练模型： ```python from lmdeploy import Model model = Model("path/to/model") output = model.generate("Hello, world!") print(output) ``` 2. **服务化部署** 如果需要将模型部署为 RESTful API 服务，可以使用内置的 HTTP 服务器： ```python from lmdeploy.server import start_server start_server("path/to/model", host="0.0.0.0", port=8080) ``` #### 常见问题解决 - **CMake 配置失败**：检查是否安装了正确的 CMake 和 GCC 版本。 - **Python 包缺失**：确保所有依赖项均已正确安装。 - **模型加载失败**：确认模型路径是否正确，并检查模型文件完整性。 ---