阿里开源Qwen-2.5-Omni，7B实现全球最强性能，看听说写全模态打通

最新推荐文章于 2025-04-01 16:42:48 发布

大模型研究院

最新推荐文章于 2025-04-01 16:42:48 发布

阅读量1k

点赞数 29

文章标签：人工智能机器学习深度学习 langchain 算法大模型

本文链接：https://blog.youkuaiyun.com/l01011_/article/details/146637789

版权

深夜发布！全球最强7B模型！

3月27日凌晨，阿里通义千问团队带来了一个大新闻：他们开源发布了一个很厉害的模型—Qwen2.5-Omni。

这个模型特别牛的地方在于，它就像一个“全能选手”，只需要一个模型，就能搞定文字、声音、图片和视频这些各种各样的内容。而且，它还能实时生成文字和自然流畅的语音，就像一个“多面手”。

在7B模型里，Qwen2.5-Omni就是那种啥都能干的“六边形战士”。

它已经在Hugging Face、ModelScope、DashScope和GitHub这些平台上开源了。你可以通过官方的Demo来体验它的互动功能，或者用Qwen Chat和它语音、视频聊天，感受一下它的强大性能。

官方还表示他们将打造更好的产品，敬请期待！

开源地址：

论文地址：https://github.com/QwenLM/Qwen2.5-Omni/blob/main/assets/Qwen2.5_Omni.pdf
博客地址：https://qwenlm.github.io/zh/blog/qwen2.5-omni/
GitHub 地址：https://github.com/QwenLM/Qwen2.5-Omni
Hugging Face：https://huggingface.co/Qwen/Qwen2.5-Omni-7B
ModelScope：https://modelscope.cn/models/Qwen/Qwen2.5-Omni-7B

体验地址：

官方体验：https://chat.qwen.ai/
Demo体验：https://modelscope.cn/studios/Qwen/Qwen2.5-Omni-Demo

最让我惊讶的是，它还能帮你解数学题，你把题目写在纸上，它就能耐心地一步步帮你解答，这不就相当于请了个家教嘛！

要是这个技术能发展成熟，那可真是太棒了，简直就是家长们的福音！以后孩子们可能就不需要花那么多钱去补习了，也不用因为学不会而让家长气得跳脚，让这个模型去教就行，反正它也不会生气。

网友们对这个模型的评价也很高，甚至有人直呼这就是真正的OpenAI，而且创下7B的新纪录。

还有网友觉得视频通话功能特别实用，甚至打算用它来开发智能眼镜。

不过，虽然Qwen2.5-Omni表现得很不错，但也不是完美的。有网友在测试的时候发现，它说中文和英文都很溜，但西班牙语和法语就不行了。

有人觉得每次时间只有3分钟太少了，至少要10分钟。

这位网友更是着急，已经在问手机应用什么时候出了。

那么，这个模型在技术上到底有哪些厉害的地方呢？

技术核心

Qwen2.5-Omni的核心亮点之一是它的“双核架构”，叫Thinker-Talker。Thinker（思考者）和Talker（说话者）。

Thinker就像一个超级聪明的大脑。它能处理各种各样的信息，比如文字、声音、图片或者视频。它把这些信息都分析一遍，然后提取出最重要的意思，并且生成一段文字来表达这个意思。

Talker的作用就有点像嘴巴。它会接收Thinker传过来的信息，然后把这些信息变成流畅的声音，就像人说话一样。它会把声音分成一个个小单元，然后一个接一个地合成出来。

Thinker是用一种很先进的技术（Transformer解码器架构）来工作的，它还能把声音和图片的信息提取出来。而Talker则是用一种特殊的设计（双轨自回归Transformer解码器），它在工作的时候，会直接从Thinker那里拿到信息，并且会记住之前所有的信息，这样就能保证整个系统能够顺畅地运行，就像一个完整的人一样。

性能表现

Qwen2.5-Omni这个模型不仅能处理文字，还能搞定图像、音频、音视频等多种形式的内容。相比之下，那些只能处理单一类型内容的模型，或者那些代码不公开的模型（比如Qwen2.5-VL-7B、Qwen2-Audio和Gemini-1.5-pro），在表现上都比不上它。

在一项专门测试多模态能力的OmniBench任务里，Qwen2.5-Omni达到了顶尖水平（SOTA）。而且在单模态任务上，它也表现得很出色。比如在语音识别（Common Voice）、翻译（CoVoST2）、音频理解（MMAU）、图像推理（MMMU、MMStar）、视频理解（MVBench）和语音生成（Seed-tts-eval和主观自然听感）这些领域，它都干得漂亮。

而且，Qwen2.5-Omni还有一个很大的优点，就是它很“轻”，可以直接在手机上运行，不需要很高端的设备。它还是开源的，用的是Apache2.0协议，这意味着开发者和企业可以免费下载和商用。这样一来，不仅省了钱，还能激发大家的创新热情，以后可能会出现更多基于这个模型的有趣应用。

结语

总的来说，Qwen2.5-Omni是一个很有潜力的多模态大模型。它在技术架构、性能表现和应用场景上都有很多优点。

不过，它也有一些问题需要解决，比如在复杂场景下的稳定性、细节处理的精度、交互的深度，还有资源限制等方面。我相信，随着技术的不断进步，这些问题都会慢慢解决。

多模态大模型以后一定会在更多领域发挥重要作用，给我们的生活和工作带来更多的便利和惊喜。不过，现在说它能彻底改变行业格局还太早了，它还有很长的路要走。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习资料已经上传优快云，朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【保证100%免费】