部署Qwen2-VL-7B-Instruct-GPTQ-Int4进行推理,提示CUDA extension not installed.

可以正常推理,但推理速度很慢。排查发现问题:torch auto-gptq 版本不对应。

查看官方推荐的版本:

auto-gptq 0.7.1

CUDA 12.1

torch 2.2.1

重新安装:

pip install torch==2.2.1

pip install torchvision==0.17.1

pip install auto-gptq==0.7.1

亲测该版本可正常使用gptq,推理速度恢复正常。
 

### 使用 Qwen2-7B-Instruct-GPTQ-INT4 模型 #### 特点和应用场景 Qwen2-7B-Instruct-INT4 是阿里云推出的一个量化模型,拥有 70 亿个参数并经过指令微调,使其能更有效地理解与执行多种任务。此模型采用 GPTQ 方法进行了 INT4 的量化处理,在保持性能的同时显著降低了计算资源需求[^1]。 这种配置使得该模型特别适合于那些希望利用大型语言模型的强大功能而又受限于硬件条件的应用场景,比如小型服务器上的在线问答系统、移动设备端的文字辅助工具等。 #### 安装依赖库 为了能够在本地环境中顺利部署并使用上述提到的大规模多模态预训练模型——Qwen2-7B-Instruct-Int4,需按照如下命令依次安装所需的Python包: ```bash pip install opencv-python pip install uvicorn pip install fastapi pip install git+https://github.com/huggingface/transformers.git pip install qwen-vl-utils pip install torchvision pip install python-multipart pip install 'accelerate>=0.26.0' pip install optimum pip install auto-gptq ``` 注意:由于 `optimum` 库可能会覆盖之前已有的 `transformers` 版本,因此建议最后再单独更新一次 `transformers` 或者确保其版本是最新的稳定版[^2]。 如果遇到 CUDA 扩展未安装的问题,则可以通过指定特定版本来解决这个问题: ```bash pip install torch==2.2.1 pip install torchvision==0.17.1 pip install auto-gptq==0.7.1 ``` 这些操作可以有效避免因软件兼容性而导致的错误消息 "CUDA extension not installed."[^3]。 #### 推理过程示例 下面给出一段简单的 Python 脚本来展示如何加载已经准备好的 Qwen2-7B-Instruct-GPTQ-INT4 并进行基本的文本生成任务: ```python from transformers import AutoTokenizer, AutoModelForCausalLM import torch tokenizer = AutoTokenizer.from_pretrained("path_to_model") # 替换为实际路径 model = AutoModelForCausalLM.from_pretrained("path_to_model", device_map="auto") input_text = "你好" inputs = tokenizer(input_text, return_tensors='pt').to('cuda') with torch.no_grad(): outputs = model.generate(**inputs) print(tokenizer.decode(outputs[0], skip_special_tokens=True)) ``` 这段代码展示了从加载模型到输入提示词直至最终获得输出结果的一系列流程。需要注意的是,“path_to_model” 需要被替换为你所下载或克隆下来的 Qwen2-7B-Instruct-GPTQ-INT4 文件夹的具体位置。 对于更加详细的指导以及更多高级特性的介绍,推荐查阅 Hugging Face 上提供的官方文档或是 GitHub 项目页面内的 README.md 文件,那里包含了更为详尽的操作指南和技术细节说明。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值