阿里发布开源语音交互大模型 Qwen2-Audio

近日,阿里发布了Qwen2-Audio模型。Qwen2-Audio 是一个大型的音频语言模型系列,它能够接受音频信号输入,进行音频分析或直接文本响应,支持语音聊天和音频分析两种交互模式,并且提供了预训练模型Qwen2-Audio-7B和聊天模型Qwen2-Audio-7B-Instruct的版本。

  论文地址:https://arxiv.org/abs/2407.10759

  评估标准:https://github.com/OFA-Sys/AIR-Bench 

  开源代码:https://github.com/QwenLM/Qwen2-Audio

Qwen2-Audio 具备下面的几个特点:

  • 语音聊天:用户可以使用语音向音频语言模型发出指令,无需通过自动语音识别(ASR)模块。

  • 音频分析:该模型能够根据文本指令分析音频信息,包括语音、声音、音乐等。

  • 多语言支持:该模型支持超过8种语言和方言,例如中文、英语、粤语、法语、意大利语、西班牙语、德语和日语。

模型效果

官方在一系列基准数据集上进行了实验,包括 LibriSpeech、Common Voice 15、Fleurs、Aishell2、CoVoST2、Meld、Vocalsound 以及 AIR-Benchmark,下面我们将展示一张图表来说明 Qwen2-Audio 相对于竞争对手的表现。在所有任务中,Qwen2-Audio 都显著超越了先前的最佳模型或是 Qwen-Audio。

图片

关于数据集的更具体结果列于下表中。

图片

结构与训练范式

下图展示了模型结构及训练方法。具体来说,通义千问团队使用 Qwen 语言模型和音频编码器这两个基础模型,接着依次进行多任务预训练以实现音频与语言的对齐,以及 SFT 和 DPO 来掌握下游任务的能力并捕捉人类的偏好。

图片

使 用

Qwen2-Audio 的代码已在最新的 Hugging face transformers 中,环境安装

pip install git+https://github.com/huggingface/transformers

 语音聊天推理:

 

 音频分析推理:

 

显存占用:

图片

vllm推理

 

 

 

 

尽管有了对Huggingface的访问限制,但是魔搭modelscope.cn在某种意义上,算是解决了大部分问题。

同时也可直接试用魔搭的在线Demo:

https://modelscope.cn/studios/qwen/Qwen2-Audio-Instruct-Demo 

图片

可以直接使用Record,录下自己的音频,然后点Submit就可以了。

 

### Qwen2-Audio 功能概述 Qwen2-Audio 是一款先进的多模态AI助手,专为处理和理解各类音频信号而设计[^2]。此模型经过大量多样化数据集的训练,在多个任务上表现出卓越性能,如语音识别、语音翻译、情感分析以及声音分类。 对于希望深入了解或利用该工具的功能和服务来说,官方提供了详尽的产品文档来指导用户完成从安装到应用开发的过程。具体而言: - **功能特性** - 支持多轮对话交互模式; - 能够适应不同类型的音频环境; - 提供高质量的声音理解和转换能力; - **使用指南** 为了便于开发者快速入门并有效集成Qwen2-Audio至个人项目当中,建议按照如下路径查找所需资料: #### 安装准备 确保操作系统满足最低配置需求之后,可以通过Python包管理器`pip`安装ModelScope库,这是访问预训练模型所必需的第一步操作[^4]: ```bash pip install modelscope ``` 接着,依据实际应用场景和个人偏好选择合适的版本进行本地化部署。例如,要获取名为`qwen2-audio-7b-instruct`的大规模指令跟随模型实例,则需运行下列命令将其保存于指定目录下: ```bash cd .. modelscope download --model qwen/qwen2-audio-7b-instruct --local_dir './Qwen/Qwen2-Audio-7B-Instruct' ``` #### 测试验证 成功加载目标模型后,可以尝试调用API接口实现简单的WebUI展示效果,以此检验整个流程是否顺畅无误. 另外,针对那些想要进一步探索更多可能性的研究人员或者工程师们,还可以参考开源社区分享的实际案例——比如如何借助FastAPI框架搭建RESTful服务端点以便在线提供实时预测结果等功能扩展[^3]. 同时也鼓励大家积极参与讨论交流群组,共同推动技术进步与发展.
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值