本地部署Qwen2大模型之六:几种AI大模型部署模式的比较

昨天终于通过vLLM方式把Qwen2大模型部署成功并运行起来了,过程艰辛曲折,遇到了很多现实问题,有部署工具的不同选择,有不同硬件基础设施的差异,有软件版本与硬件的匹配,还有软件工具包之间的版本匹配,表现在很多方面,也尝试了很多的解决办法。正是在解决这些问题的过程中,我逐渐对AI大模型的部署有了比较清晰的了解,也形成了几种不同部署模式的概念。在这里我尝试做个简单总结,也许有认识不对的地方,回头再来修正吧,也是个逐渐深入的过程。

本地部署AI大模型特点的简单总结

一、vLLM方式部署大模型需要占用大量资源,包括计算资源和存储资源

在 本地部署Qwen2大模型之三——模型启动参数的调整 中,我使用的阿里云服务器的配置是:

结果,连编译vLLM源代码都做不了,编译直接卡死。

 本地部署Qwen2大模型之四——模型规模的选择 中,我使用的个人笔记本电脑的配置是:

Intel Core i7-110510U处理器,4核8线程,4.9GHz;

16GB DDR4内存(原配8GB,我自己加装的16GB);

256GB SSD硬盘;

AMD Radeon集成显卡,与系统共享内存,无GPU。

在这个笔记本上,编译vLLM非常流畅,在硬盘上存储大模型文件也没有问题,但是运行Qwen2-7B-Instruct模型则不行,内存不足,不管我怎么配置参数都会耗尽内存,被操作系统枪毙。通过dmsg观察,运行7B的模型,至少得34GB的内存,仅驻留内存就要15GB,所以在本地部署Qwen2大模型之一——Ollma方式部署中做前期调研时,说运行Qwen2-7B至少需要32GB的内存是不虚的。改为Qwen2.5-3B-Instruct后就可以运行起来了,但是速度很慢,一句16个中文字符的提示语(不包括标点符号,大概会转换为16个tokens,模型不同处理方式不同)和同样16个中文字符(同样是16个tokens)的一句回答,加载模型就花了40秒,生成回答则用了1分32秒,这还只是单用户的单个对话,这样的速度显然达不到实用要求。

所以要部署一个能够流畅运行的,支持多用户并发的,达到十亿级(xB)参数的大模型,所需要的硬件资源是惊人的,在目前阶段,一般个人和中小企业可能都难以企及。

二、目前的AI算力市场,英伟达(NVIDIA)已形成了绝对垄断

英伟达不仅在GPU硬件上领先,最关键的

### 华为升腾910B平台部署Qwen-2大模型 #### 硬件与软件准备 为了成功在华为升腾910B AI处理器上部署Qwen-2大模型,需确保硬件配置满足需求并安装适当版本的软件包。具体来说: - **硬件**:Ascend 910B 处理器。 - **软件环境**: - 驱动版本:24.1.rc1 - CANN 版本:8.0.T37 - MindIE 及其相关组件版本均为:1.0.T61.B010[^2] #### 安装依赖库 首先,在目标机器上设置好Python虚拟环境后,通过pip工具安装必要的Python库文件,特别是`mindspore`以及`transformers`等深度学习框架。 ```bash pip install mindspore transformers ``` #### 下载预训练模型权重 访问ModelScope网站获取Qwen-2模型的相关资源链接,并下载对应的参数文件至本地存储位置。 #### 加载模型到内存中 编写一段简单的Python脚本来加载已保存下来的checkpoint数据结构体实例化一个完整的神经网络对象。 ```python from transformers import AutoTokenizer, AutoModelForCausalLM tokenizer = AutoTokenizer.from_pretrained("qwen/Qwen1.5-72B", trust_remote_code=True) model = AutoModelForCausalLM.from_pretrained("qwen/Qwen1.5-72B", device_map="auto", torch_dtype=torch.float16).eval() ``` 注意这里使用了`device_map='auto'`来自动分配张量计算任务给可用设备;同时也指定了较低精度的数据类型以节省显存空间消耗[^1]。 #### 推理优化 考虑到实际应用场景中的性能考量因素,可以采用如下几种方法来进行加速处理: - 利用INT8整数量化技术减少带宽占用同时保持较高准确性。 #### 测试验证 最后一步就是针对特定业务逻辑构建测试集样本集合用于评估整个系统的稳定性和响应速度表现情况。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值