8G 显存玩转书生大模型 Demo

原创

已于 2024-07-27 19:05:15 修改 · 376 阅读

3 ·

CC 4.0 BY-SA版权

文章标签：

#python #开发语言

于 2024-07-27 11:49:01 首次发布

1.使用 Cli Demo 完成 InternLM2-Chat-1.8B 模型的部署，并生成 300 字小故事

1.1安装环境

# 创建环境
conda create -n demo python=3.10 -y
# 激活环境
conda activate demo
# 安装 torch
conda install pytorch==2.1.2 torchvision==0.16.2 torchaudio==2.1.2 pytorch-cuda=12.1 -c pytorch -c nvidia -y
# 安装其他依赖
pip install transformers==4.38
pip install sentencepiece==0.1.99
pip install einops==0.8.0
pip install protobuf==5.27.2
pip install accelerate==0.33.0
pip install streamlit==1.37.0

1.2下载 `InternLM2-Chat-1.8B` 模型

创建文件夹并写入下载代码

mkdir -p /root/demo
touch /root/demo/cli_demo.py
touch /root/demo/download_mini.py
cd /root/demo

在download_mini.py中写入下面代码

import os
from modelscope.hub.snapshot_download import snapshot_download

# 创建保存模型目录
os.system("mkdir

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

f_ckhell

关注关注

10
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

降本增效利器：LMDeploy 部署 LLM 全流程详解

举世誉之而不加劝，举世非之而不加沮，定乎内外之分，辩乎荣辱之境，斯已矣。

06-26

1957

本文介绍使用 LMDeploy 部署 LLM

LMDeploy 的介绍与部署

Orkeii的博客

04-24

2110

LMDeploy的部署与模型介绍

参与评论您还未登录，请先登录后发表或查看评论

LMDeploy 量化部署 LLM&VLM 实践

qq_42137576的博客

05-23

1477

LMDeploy 量化部署 LLM&VLM 实践

LMDeploy 量化部署 LLM&VLM实战--笔记

taotao_zhang1的博客

04-12

1812

打开InternStudio平台，创建开发机。填写开发机名称；选择镜像；选择10% A100*1GPU；点击“立即创建”。排队等待一小段时间，点击“进入开发机”。点击左上角图标，切换为终端(Terminal)模式。

LMDeploy 量化部署实践

weixin_45963030的博客

11-27

728

参考。

LMDeploy 的量化和部署

2401_83005240的博客

02-20

1576

首先我们需要明白一点，服务部署和量化是没有直接关联的，量化的最主要目的是降低显存占用，主要包括两方面的显存：模型参数和中间过程计算结果。接下来我们切换到刚刚的终端（就是上图右边的那个「bash」，下面的「watch」就是监控的终端），创建部署和量化需要的环境。目录下的环境是官方未大家准备好的基础环境，因为该目录是共享只读的，而我们后面需要在此基础上安装新的软件包，所以需要复制到我们自己的 conda 环境（该环境下我们是可写的）。值得说明的是，以上的划分是一个相对完整的模型，但在实际中这并不是绝对的。

【书生·浦语实战营】基础岛第2关：8G 显存玩转书生大模型 Demo

qq_43959624的博客

07-31

1254

‌具体来说，‌当temperature设置为较高的值时，‌模型在选择下一个token时会倾向于选择概率较低的选项，‌从而产生更具创新性和多样性的输出。‌相反，‌当temperature设置为较低的值时，‌模型会更偏向于选择概率较高的选项，‌产生更准确、‌更确定性的输出。TurboMind与TurboMind模型的关系：TurboMind是推理引擎的名字，TurboMind模型是一种模型存储格式，TurboMind引擎只能推理TurboMind格式的模型。

第五课-LMDeploy 的量化和部署

qq_46016871的博客

02-21

6378

LMDoply部署实战

顶级小学生

04-10

1353

使用LMDeoply部署各类开源大模型，进行推理实践。

进阶关卡 - 第3关 - LMDeploy 量化部署进阶实践

vaylove的博客

02-14

1126

进阶关卡 - 第3关 - LMDeploy 量化部署进阶实践

书生浦语训练营2期-第五节课—LMDeploy 量化部署 LLM-VLM 实践笔记及作业

m0_55303420的博客

04-12

1200

打开InternStudio平台，创建开发机。填写开发机名称；；选择10% A100*1GPU；点击“立即创建”。注意请不要选择的镜像，新版本的lmdeploy会出现兼容性问题。排队等待一小段时间，点击“进入开发机”。点击左上角图标，切换为终端(Terminal)模式。

大模型部署指南之 LMDeploy 篇：从模型压缩到生产级API的完整武器库

冷不丁

05-10

2455

LMDeploy 是由 MMDeploy 和 MMRazor 团队开发的全套轻量化、部署和服务解决方案，专为本地化私有部署设计。其核心优势包括极致性能优化、生产级部署、多格式兼容和开放生态。LMDeploy 支持从模型量化到生产级API服务的全流程优化，特别适合需要低延迟、高并发的企业应用。通过内置的量化工具和高并发管理，LMDeploy 显著提升了推理速度并降低了显存占用，使得在消费级显卡上也能流畅运行大模型。此外，LMDeploy 提供了开箱即用的部署工具，简化了从模型转换到服务部署的流程，大幅缩短了部

第五节课——LMDeploy 量化部署 LLM 实践（笔记+作业）

qq_42866802的博客

06-10

550

在软件工程中，部署通常指的是将开发完毕的软件投入使用的过程。在人工智能领域，模型部署是实现深度学习算法落地应用的关键步骤。简单来说，模型部署就是将训练好的深度学习模型在特定环境中运行的过程。

LMDeploy 量化部署 LLM 实践+进阶

nlpx2000的博客

04-11

1472

pipe = pipeline('liuhaotian/llava-v1.6-vicuna-7b', backend_config=backend_config) 非开发机运行此命令。# pipe = pipeline('liuhaotian/llava-v1.6-vicuna-7b', backend_config=backend_config) 非开发机运行此命令。internlm2-chat-1_8B模型量化部署与llava多模态模型llava-v1.6-7b部署实践。

LMDeploy高效部署Llama-3-8B，1.8倍vLLM推理效率

xxue345678的博客

10-30

1038

Llama 3 近期重磅发布，发布了 8B 和 70B 参数量的模型，LMDeploy 对 Llama 3 部署进行了光速支持，同时对 LMDeploy推理 Llama 3 进行了测试，在公平比较的条件下推理效率是 vLLM 的 1.8 倍。本文将分为以下几个部分来介绍，如何使用LMDeploy来部署 Llama3（以 InternStudio 的环境为例）环境、模型准备LMDeploy Chat CLI 工具LMDeploy 模型量化（lite）LMDeploy 服务（serve）

lmdeploy v0.9.2 发布详解：功能升级、性能优化与兼容性提升全解析

福大大架构师每日一题

07-27

1081

lmdeploy是一个面向大型语言模型（Large Language Models, LLMs）的部署框架，旨在简化并加速模型推理过程，支持多种硬件架构与优化引擎。该项目持续活跃，社区贡献热烈，频繁发布更新，确保其功能和性能紧贴最新AI技术发展动态。此次v0.9.2版本，是继0.9.1之后的重要升级版本，不仅强化了模型支持能力和系统兼容性，还修正了若干关键BUG，优化了运行时表现和整体用户体验。因此，对于正在使用lmdeploy进行模型部署的用户和研发团队来说，及时了解并升级至该版本至关重要。

LMDeploy量化部署LLM&VLM

weixin_45924641的博客

04-18

2851

LMDeploy量化部署InternLM2-chat-1.8B & LLaVa

LMDeploy 量化部署 LLM 实践

weixin_44497664的博客

04-26

523

LMdeploy 有两个功能：量化与部署。量化加快推理速度减少现存占用，部署可以用客户端、网页以及Api迅速调用方便开发者使用。

华硕天选4笔记本电脑 32g内存，4060 8G显卡怎么部署本地大模型

8G 显存玩转书生大模型 Demo

1.使用 Cli Demo 完成 InternLM2-Chat-1.8B 模型的部署，并生成 300 字小故事

1.1安装环境

1.2下载 InternLM2-Chat-1.8B 模型

1.2下载 `InternLM2-Chat-1.8B` 模型