Kyutai 开源 TTS 模型；Rokid Glasses ：语音 AR 免提导航丨日报

原创

于 2025-07-04 18:26:30 发布 · 764 阅读

·

28

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

在这里插入图片描述

开发者朋友们大家好：

这里是 「RTE 开发者日报」 ，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@赵怡岭、@鲍勃

01有话题的技术

1、阿里巴巴达摩院提出 WorldVLA 模型，首次将世界模型与动作模型融合

在这里插入图片描述

阿里巴巴达摩院提出了 WorldVLA，首次将世界模型（World Model）和动作模型（Action Model/VLA Model）融合到了一个模型中。WorldVLA 是一个统一了文本、图片、动作理解和生成的全自回归模型。

VLA 模型可以根据图像理解生成动作；世界模型可以根据当前图像和动作生成下一帧图像；WorldVLA 将将两者融合，实现图像与动作的双向理解和生成，如下图所示。

在这里插入图片描述

WorldVLA 使用独立的编码器分别处理图像、文本和动作，并让这些模态共享同一个词汇表，从而在单一的大语言模型架构下实现跨模态的统一建模。这种设计不仅提升了动作生成的准确性，也增强了图像预测的质量。WorldVLA 使用 Action Model 数据和 World Model 数据来训练模型。

论文标题：WorldVLA: Towards Autoregressive Action World Model

论文地址：https://arxiv.org/pdf/2506.21539

代码地址：https://github.com/alibaba-damo-academy/WorldVLA（@机器之心）

2、联发科推出开源 AI 语音识别模型 MR BreezeASR 25，针对中国台湾地区语言特点和口音优化

在这里插入图片描述

7 月 3 日消息，联发科本月 1 日宣布其辖下的前瞻技术研究单位联发创新基地（MediaTek Research）发布基于 OpenAI Whisper 优化的 AI 语音识别模型 MR Bre

最低0.47元/天解锁文章

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。