部署Qwen2-VL-7B-Instruct-GPTQ-Int4进行推理，提示CUDA extension not installed.

最新推荐文章于 2025-04-02 13:45:16 发布

白桃乌龙奶冻

最新推荐文章于 2025-04-02 13:45:16 发布

阅读量485

点赞数 3

文章标签： python linux 开发语言

本文链接：https://blog.youkuaiyun.com/qq_42248452/article/details/144131426

版权

可以正常推理，但推理速度很慢。排查发现问题：torch auto-gptq 版本不对应。

查看官方推荐的版本：

auto-gptq 0.7.1

CUDA 12.1

torch 2.2.1

重新安装：

pip install torch==2.2.1

pip install torchvision==0.17.1

pip install auto-gptq==0.7.1

亲测该版本可正常使用gptq，推理速度恢复正常。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

白桃乌龙奶冻

关注关注

3
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

CUDA extension not installed.(Linux)

q742971636的博客

12-02

4664

【代码】CUDA extension not installed.(Linux)

开源模型应用落地-模型量化-Qwen1.5-7B-Chat-GPTQ-Int8（一）

没有卑微的工作，只有卑微的心态，与其抱怨，不如埋头实干

05-17

1万+

理解GPTQ模型量化技术，以低成本体验大语言模型的魅力

参与评论您还未登录，请先登录后发表或查看评论

CUDA extension not installed Qwen2-VL-7B-Instruct-GPTQ-Int4

u014288878的博客

12-01

212

torch 换成 2.2.1 版本就就行了，但是推理速度相比Qwen2-VL-7B-Instruct 没有提升，有个警告：FutureWarning: `_is_quantized_training_enabled` is going to be deprecated in transformers 4.39.0. Please use `model.hf_quantizer.is_trainable` instead ，暂时。

华为昇腾Qwen2-VL-7B-Instruct模型训练微调推理

热门推荐

没有卑微的工作，只有卑微的心态，与其抱怨，不如埋头实干

08-07

3万+

4090单机双卡部署vllm，并集成qwen2-7b-instruct-gptq-int4

开源模型应用落地-qwen模型小试-调用Qwen2-VL-7B-Instruct-更清晰地看世界（一）

没有卑微的工作，只有卑微的心态，与其抱怨，不如埋头实干

09-17

2万+

掌握Qwen2-VL提升职业发展增添强大的竞争力

基于Qwen2.5-7B-Instruct的大模型微调实战指南

11-18

内容概要：本文档详细介绍了如何使用Qwen2.5-7B-Instruct大模型进行微调的具体步骤。主要内容包括环境搭建、预训练模型下载、微调准备工作、具体微调流程以及如何启用外部记录面板等。通过本文档，读者可以逐步掌握...

Qwen-VL 远程GPU服务器部署实战

07-14

Qwen-VL 远程GPU服务器部署实战

本地部署千文2多模态大模型Qwen2-VL-7B-Instruct-GPTQ-Int4

yylhm1125的博客

09-24

2145

pip install optimum（安装这个模块的时候会卸载transformers，所以如果是先安装的transformers按完这个需要再次安装transformers，或者后安装transformers）3、安装modelscope（下载方式为魔塔社区命令行下载）第三部分编写python代码加载模型并推理。第四部分可能出现的问题（有待补充）2、安装代码运行环境。

【深度学习】LLaMA-Factory部署Qwen2-VL-72B-Instruct-GPTQ-Int4

q742971636的博客

10-09

293

https://www.dong-blog.fun/post/1737#%E9%83%A8%E7%BD%B2%20Qwen2-VL-72B-Instruct-GPTQ-Int4%20%E6%A8%A1%E5%9E%8B

【Qwen2微调实战】Lora微调Qwen2-7B-Instruct实践指南

寻道AI，探索AI无限可能！

07-24

1万+

在人工智能领域，自然语言处理（NLP）一直是研究的热点之一。随着深度学习技术的不断发展，大型预训练语言模型（如Qwen2-7B-Instruct）在理解与生成自然语言方面取得了显著的进展。然而，这些模型往往需要大量的计算资源和数据来进行微调，以适应特定的应用场景。Lora微调技术作为一种高效的模型优化手段，为解决这一问题提供了新的思路。本文将深入探讨Lora微调技术在Qwen2-7B-Instruct模型上的应用，旨在为读者提供一种高效、低成本的模型定制化方法。

使用 vllm 本地部署 cohere 的 command-r

engchina的专栏

04-24

1153

使用 vllm 本地部署 cohere 的 command-r

**视觉语言模型的革新：Qwen2-VL-7B-Instruct深度解析**

gitblog_02165的博客

12-16

600

视觉语言模型的革新：Qwen2-VL-7B-Instruct深度解析 Qwen2-VL-7B-Instruct 项目地址: https://gitcode.com/hf_mirrors/ai-gitcode/Qwen2-VL-7...

阿里云PAI大模型评测最佳实践

科技很有意思

06-19

1883

在大模型时代，随着模型效果的显著提升，模型评测的重要性日益凸显。科学、高效的模型评测，不仅能帮助开发者有效地衡量和对比不同模型的性能，更能指导他们进行精准地模型选择和优化，加速AI创新和应用落地。因此，建立一套平台化的大模型评测最佳实践愈发重要。本文为PAI大模型评测最佳实践，旨在指引AI开发人员使用PAI平台进行大模型评测。借助本最佳实践，您可以轻松构建出既能反映模型真实性能，又能满足行业特定需求的评测过程，助力您在人工智能赛道上取得更好的成绩。最佳实践包括如下内容：如何准备和选择评测数据集。

深度解析：Qwen2-VL-7B-Instruct 模型的安装与使用教程

gitblog_02582的博客

12-12

2498

深度解析：Qwen2-VL-7B-Instruct 模型的安装与使用教程 Qwen2-VL-7B-Instruct 项目地址: https://gitcode.com/hf_mirrors/ai-gitcode/Qwen2-VL...

Qwen2-VL-Instruct安装及测试记录

OkGogooXSailboat的博客

01-23

1401

或者，右键点击下载按钮，复制下载链接，之后在服务器上使用wget命令下载。取消“Driver”选项，因为已经安装过显卡驱动了，这里不需要安装，然后选择“Install”。执行安装脚本后，一直按回车，直到出现输入yes or no的选项，输入yes。对应显卡，依次选择筛选条件，版本选择为12.4，设置好条件后，点击“查找”，依次点击选项卡，设置筛选条件，选择所需版本后，页面下方会生成安装命令。保存后，执行“source ~/.bashrc”命令，更新环境变量。● 16vCPU(虚拟中央处理单元)

开源模型应用落地-qwen2-7b-instruct-LoRA微调-ms-swift-单机单卡-V100（十二）

没有卑微的工作，只有卑微的心态，与其抱怨，不如埋头实干

08-30

4147

使用ms-swift高效微调qwen2-7b-instruct

Qwen2-7B-Instruct-gptq-int4使用

02-21

### 使用 Qwen2-7B-Instruct-GPTQ-INT4 模型 #### 特点和应用场景 Qwen2-7B-Instruct-INT4 是阿里云推出的一个量化模型，拥有 70 亿个参数并经过指令微调，使其能更有效地理解与执行多种任务。此模型采用 GPTQ 方法进行了 INT4 的量化处理，在保持性能的同时显著降低了计算资源需求[^1]。这种配置使得该模型特别适合于那些希望利用大型语言模型的强大功能而又受限于硬件条件的应用场景，比如小型服务器上的在线问答系统、移动设备端的文字辅助工具等。 #### 安装依赖库为了能够在本地环境中顺利部署并使用上述提到的大规模多模态预训练模型——Qwen2-7B-Instruct-Int4，需按照如下命令依次安装所需的Python包： ```bash pip install opencv-python pip install uvicorn pip install fastapi pip install git+https://github.com/huggingface/transformers.git pip install qwen-vl-utils pip install torchvision pip install python-multipart pip install 'accelerate>=0.26.0' pip install optimum pip install auto-gptq ``` 注意：由于 `optimum` 库可能会覆盖之前已有的 `transformers` 版本，因此建议最后再单独更新一次 `transformers` 或者确保其版本是最新的稳定版[^2]。如果遇到 CUDA 扩展未安装的问题，则可以通过指定特定版本来解决这个问题： ```bash pip install torch==2.2.1 pip install torchvision==0.17.1 pip install auto-gptq==0.7.1 ``` 这些操作可以有效避免因软件兼容性而导致的错误消息 "CUDA extension not installed."[^3]。 #### 推理过程示例下面给出一段简单的 Python 脚本来展示如何加载已经准备好的 Qwen2-7B-Instruct-GPTQ-INT4 并进行基本的文本生成任务： ```python from transformers import AutoTokenizer, AutoModelForCausalLM import torch tokenizer = AutoTokenizer.from_pretrained("path_to_model") # 替换为实际路径 model = AutoModelForCausalLM.from_pretrained("path_to_model", device_map="auto") input_text = "你好" inputs = tokenizer(input_text, return_tensors='pt').to('cuda') with torch.no_grad(): outputs = model.generate(**inputs) print(tokenizer.decode(outputs[0], skip_special_tokens=True)) ``` 这段代码展示了从加载模型到输入提示词直至最终获得输出结果的一系列流程。需要注意的是，“path_to_model” 需要被替换为你所下载或克隆下来的 Qwen2-7B-Instruct-GPTQ-INT4 文件夹的具体位置。对于更加详细的指导以及更多高级特性的介绍，推荐查阅 Hugging Face 上提供的官方文档或是 GitHub 项目页面内的 README.md 文件，那里包含了更为详尽的操作指南和技术细节说明。