昨天终于通过vLLM方式把Qwen2大模型部署成功并运行起来了,过程艰辛曲折,遇到了很多现实问题,有部署工具的不同选择,有不同硬件基础设施的差异,有软件版本与硬件的匹配,还有软件工具包之间的版本匹配,表现在很多方面,也尝试了很多的解决办法。正是在解决这些问题的过程中,我逐渐对AI大模型的部署有了比较清晰的了解,也形成了几种不同部署模式的概念。在这里我尝试做个简单总结,也许有认识不对的地方,回头再来修正吧,也是个逐渐深入的过程。
本地部署AI大模型特点的简单总结
一、vLLM方式部署大模型需要占用大量资源,包括计算资源和存储资源
在 本地部署Qwen2大模型之三——模型启动参数的调整 中,我使用的阿里云服务器的配置是:
结果,连编译vLLM源代码都做不了,编译直接卡死。
在 本地部署Qwen2大模型之四——模型规模的选择 中,我使用的个人笔记本电脑的配置是:
Intel Core i7-110510U处理器,4核8线程,4.9GHz;
16GB DDR4内存(原配8GB,我自己加装的16GB);
256GB SSD硬盘;
AMD Radeon集成显卡,与系统共享内存,无GPU。
在这个笔记本上,编译vLLM非常流畅,在硬盘上存储大模型文件也没有问题,但是运行Qwen2-7B-Instruct模型则不行,内存不足,不管我怎么配置参数都会耗尽内存,被操作系统枪毙。通过dmsg观察,运行7B的模型,至少得34GB的内存,仅驻留内存就要15GB,所以在本地部署Qwen2大模型之一——Ollma方式部署中做前期调研时,说运行Qwen2-7B至少需要32GB的内存是不虚的。改为Qwen2.5-3B-Instruct后就可以运行起来了,但是速度很慢,一句16个中文字符的提示语(不包括标点符号,大概会转换为16个tokens,模型不同处理方式不同)和同样16个中文字符(同样是16个tokens)的一句回答,加载模型就花了40秒,生成回答则用了1分32秒,这还只是单用户的单个对话,这样的速度显然达不到实用要求。
所以要部署一个能够流畅运行的,支持多用户并发的,达到十亿级(xB)参数的大模型,所需要的硬件资源是惊人的,在目前阶段,一般个人和中小企业可能都难以企及。
二、目前的AI算力市场,英伟达(NVIDIA)已形成了绝对垄断
英伟达不仅在GPU硬件上领先,最关键的