深夜重磅!阿里发布并开源首个端到端全模态大模型——
通义千问Qwen2.5-Omni-7B,来了。
仅靠一个一体式模型,就能搞定文本、音频、图像、视频全模态,并实时生成文本和自然语音。
堪称7B模型的全能冠军。
你的iPhone搭载的很可能就是它!
现在打开Qwen Chat,就能直接和它实时进行视频或语音交互:
话不多说,先来看一波能力展示。
在大街上同它视频通话,它能正确识别周围环境,按照你的需求为你推荐餐馆:
,时长00:55
走进厨房,它又化身“智能菜谱”,一步步指导你变成大厨:
,时长01:16
在多模态任务OmniBench评测中,Qwen2.5-Omni表现刷新记录拿下新SOTA,远超谷歌Gemini-1.5-Pro等同类模型。
在单模态的语音识别、翻译、音频理解、图像推理、视频理解、语音生成任务中,Qwen2.5-Omni的全维度表现也都优于类似大小的单模态模型以及闭源模型。
在seed-tts-eval语音生成基准中,Qwen2.5-Omni展现出与人类水平相当的语音合成能力。
这意味着Qwen2.5-Omni-7B能很好地和世界进行实时交互,甚至能轻松识别音视频情绪。
再来敲重点:
模型非常轻量,手机等终端都可轻松部署运行,且开源用的是宽松的Apache2.0协议,开发者、企业现在都可免费在魔搭社区或Hugging Face下载商用。
Qwen2.5-Omni-7B一开源,网友直呼这才是真正的OpenAI(doge)。
网友纷纷表示可以直接拿来装到智能眼镜上了:
这可能是智能眼镜的完美模型。
7B模型的新纪录!
目前,在Qwen Chat上即可体验该模型支持的AI语音和视频通话功能。
更多实例,一起来看~
实测效果惊艳
首先,Qwen2.5-Omni-7B能胜任免费的数学家教。
它能像人类老师一样,看到题目、听懂问题,并且一步一步耐心讲解。
,时长00:30
更复杂的论文它也看得懂。
只需共享屏幕,然后将论文从上至下滑动,“给它看一遍”。
它就能通俗解释论文内容。
比如PPT、网页资料等,也能找它做讲解。
,时长00:50
而且它还有一定艺术见解,比如可以陪着你画画,然后给出指导建议。
,时长00:48
或者听你演奏的音乐,给出更好的改进建议。
,时长01:01
我们还进行了一手实测,在Qwen Chat上每天可使用语音和视频聊天10次。
实测中,模型能很好地理解商品界面和优惠政策。
响应速度也很快,并且会引导人类继续问下去、很有耐心。
需要注意的是,当前视频通话还只是Beta测试版,每次通话限时3分钟。
,时长00:56
Hugging Face的产品负责人Jeff Boudier也第一时间上手试玩。
模型的英文能力一样出众,而且它不仅回答看到了杯子,还细致描述了杯子上的笑脸花纹。
,时长00:22
首创Thinker-Talker双核架构
目前官方已放出Qwen2.5-Omni技术Blog和论文。
Qwen2.5-Omni采用通义团队首创的全新架构——Thinker-Talker双核架构。
其中,Thinker就像“大脑”,负责处理和理解来自文本、音频、视频等多模态的输入信息,生成高层语义表征以及对应的文本内容。
Talker则更像“嘴巴”,以流式的方式接收由Thinker实时输出的语义表征与文本,并流畅地合成离散语音tokens。
具体来说,Thinker基于Transformer解码器架构,融合音频/图像编码器进行特征提取。
而Talker采用双轨自回归Transformer解码器设计,在训练和推理过程中直接接收来自Thinker的高维表征,并共享Thinker的全部历史上下文信息。因此,整个架构作为一个紧密结合的单一模型运行,支持端到端的训练和推理。
与此同时,团队还提出了一种新的位置编码算法TMRoPE(Time-aligned Multimodal RoPE)以及Position Embedding (位置嵌入)融合音视频技术。
TMRoPE编码多模态输入的三维位置信息,即多模态旋转位置嵌入(M-RoPE),并结合绝对时间位置,通过将原始旋转嵌入分解为时间、高度和宽度三个部分实现。
另外值得一提的是,从技术层面来看,Qwen2.5-Omni和一般的视频/语音理解模型以及其相应的视频/语音对话的AI功能,也有本质性区别。
在传统语音理解大模型的人机交互场景里,一般运用 ASR(Automatic Speech Recognition,自动语音识别)技术,把人类语音转换为文字文本,随后将其交给大语言模型处理,最终生成的内容借助 TTS(Text-to-Speech,语音合成)技术转化为语音反馈给用户。
而视频理解模型是基于图片、视频进行大模型理解,并以文字形式输出反馈。
这两种模型均属于相互独立的单链路模型。在一些AI应用中,甚至会串联多个模型来实现类似功能,如此一来,链路变得更长,效率大打折扣。
Qwen2.5-Omni-7B的特点在于,它原生支持视频、图片、语音、文字等多模态输入,并能原生生成语音及文字等多模态输出。
也就是说,一个模型就能通过“看”、“听”、“阅读”等多种方式来综合思考。
所以Qwen2.5-Omni得以在一系列同等规模的单模态模型权威基准测试中,拿下最强全模态性能,在语音理解、图片理解、视频理解、语音生成等领域的测评分数,均领先于专门的音频(Audio)或视觉语言(VL)模型。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。