【大模型】LLM显存占用对比:Qwen-7B-Chat,Qwen-14B-Chat-Int8,chatglm3-6b

【大模型】LLM显存占用对比:Qwen-7B-Chat,Qwen-14B-Chat-Int8,chatglm3-6b

显存占用对比:

显卡:NVIDIA GeForce RTX 4090
系统环境:ubuntu 22.04LTS

  • Qwen-14B-Chat-Int8
    模型:qwen/Qwen-14B-Chat-Int8
    GPU占用:
    在这里插入图片描述

  • Qwen-7B-Chat
    模型:qwen/Qwen-7B-Chat(bf16, fp16)
    GPU占用:
    在这里插入图片描述

  • chatglm3-6b
    模型:ZhipuAI/chatglm3-6b(bf16, fp16)
    GPU占用:
    在这里插入图片描述

总结

总结下来就是能用fp16就用fp16,能用Int8就用Int8,能用int4就用int4。
量化对降低显存占用还是非常不错。

参考

  1. https://modelscope.cn/models/qwen/Qwen-14B-Chat-Int8/summary
  2. https://modelscope.cn/models/qwen/Qwen-7B-Chat/summary
  3. https://modelscope.cn/models/ZhipuAI/chatglm3-6b/summary
### Qwen2.5-14B 模型本地部署方法 #### 下载并安装模型资源 为了在本地环境中成功部署 Qwen2.5-14B-Instruct 模型,需先通过 Python 的包管理工具 `pip` 来获取该模型的相关文件。具体操作如下所示: ```bash pip install git+https://huggingface.co/Qwen/Qwen2.5-14B-Instruct ``` 此命令会自动处理依赖关系并将所需库安装到当前环境之中[^1]。 #### 配置 API 服务器启动参数 当准备就绪之后,可以通过 VLLM 提供的服务端口来运行这个大型语言模型实例。下面是一组推荐配置选项用于启动服务进程: ```bash python -m vllm.entrypoints.openai.api_server \ --model /path/to/local/model/Qwen2.5-14B-Instruct-GPTQ-Int8 \ --trust-remote-code \ --enforce-eager \ --max-model-len 256 \ --tensor-parallel-size 2 \ --dtype float16 \ --quantization gptq \ --port 8001 \ --host 0.0.0.0 ``` 这里需要注意的是 `/path/to/local/model/` 应替换为实际存储路径;而其他参数则可以根据硬件条件和个人需求适当调整[^3]。 #### 使用示例代码调用接口 完成上述设置后,即可编写简单的客户端脚本来测试新搭建好的 LLM 接口是否正常工作。Python 示例代码片段如下: ```python import requests url = "http://localhost:8001/v1/completions" headers = {"Content-Type": "application/json"} data = { "prompt": "你好", "max_tokens": 50, } response = requests.post(url, headers=headers, json=data) print(response.json()) ``` 这段程序将会向刚刚建立起来的服务发送 HTTP POST 请求,并打印出由 Qwen2.5-14B 所生成的回答内容。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

szZack

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值