你的RTX 4090终于有用了!保姆级教程,5分钟在本地跑起Qwen-Audio,效果惊人
写在前面:硬件门槛
在开始之前,我们需要明确运行Qwen-Audio所需的硬件配置。根据官方文档,Qwen-Audio推荐使用支持CUDA 11.4及以上的GPU设备。然而,官方并未明确说明最低显存要求。因此,我们给出以下建议:
- 推荐配置:NVIDIA A100 80GB或NVIDIA RTX 4090 24GB等高性能显卡。
- 警告:如果您的设备显存较低(如16GB以下),可能会遇到内存不足(OOM)的问题。建议在投入资源前,访问官方项目主页或社区,确认最新的硬件要求。
环境准备清单
在开始安装和运行Qwen-Audio之前,请确保您的系统满足以下要求:
- 操作系统:Linux或Windows(推荐Linux)。
- Python版本:3.8及以上。
- PyTorch版本:1.12及以上(推荐2.0及以上)。
- CUDA版本:11.4及以上(仅GPU用户需要)。
- FFmpeg:用于音频处理。
模型资源获取
Qwen-Audio的模型可以通过以下方式获取:
- 官方推荐方式:使用
transformers库直接加载模型。 - 备用方式:从官方仓库下载模型权重文件。
逐行解析“Hello World”代码
以下是官方提供的快速上手代码,我们将逐行解析其作用:
from transformers import AutoModelForCausalLM, AutoTokenizer
from transformers.generation import GenerationConfig
import torch
torch.manual_seed(1234)
# 加载tokenizer
tokenizer = AutoTokenizer.from_pretrained("Qwen/Qwen-Audio", trust_remote_code=True)
# 加载模型(使用CUDA设备)
model = AutoModelForCausalLM.from_pretrained("Qwen/Qwen-Audio", device_map="cuda", trust_remote_code=True).eval()
# 音频URL和提示词
audio_url = "https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen-Audio/1272-128104-0000.flac"
sp_prompt = "<|startoftranscript|><|en|><|transcribe|><|en|><|notimestamps|><|wo_itn|>"
query = f"<audio>{audio_url}</audio>{sp_prompt}"
# 处理音频输入
audio_info = tokenizer.process_audio(query)
inputs = tokenizer(query, return_tensors='pt', audio_info=audio_info)
inputs = inputs.to(model.device)
# 生成响应
pred = model.generate(**inputs, audio_info=audio_info)
response = tokenizer.decode(pred.cpu()[0], skip_special_tokens=False, audio_info=audio_info)
print(response)
代码解析:
- 加载tokenizer和模型:使用
transformers库加载预训练的tokenizer和模型。 - 音频处理:通过
tokenizer.process_audio处理音频输入。 - 生成响应:调用
model.generate生成文本输出。
运行与结果展示
运行上述代码后,您将看到类似以下的输出:
<audio>https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen-Audio/1272-128104-0000.flac</audio><|startoftranscription|><|en|><|transcribe|><|en|><|notimestamps|><|wo_itn|>mister quilting is the apostle of the middle classes and we are glad to welcome his gospel<|endoftext|>
这表明模型成功处理了音频输入并生成了对应的文本输出。
常见问题(FAQ)与解决方案
问题1:内存不足(OOM)
- 解决方案:尝试使用更小的音频文件或降低模型的精度(如使用
fp16模式)。
问题2:依赖冲突
- 解决方案:确保您的Python环境干净,并使用
pip install -r requirements.txt安装所有依赖。
问题3:下载失败
- 解决方案:检查网络连接,或尝试从备用源下载模型权重。
通过这篇教程,您已经成功在本地运行了Qwen-Audio模型!如果您有任何问题,欢迎在评论区留言讨论。
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考



