M5Stack 发布全双工通信语音识别硬件；雷蛇发布 AI 游戏伴侣 Project AVA，实时指导复盘

原创

于 2025-01-10 18:27:44 发布 · 1.4k 阅读

·

26

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#人工智能 #语音识别 #游戏

在这里插入图片描述

开发者朋友们大家好：

这里是 「RTE 开发者日报」 ，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的新闻」、「有态度的观点」、「有意思的数据」、「有思考的文章」、「有看点的会议」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@Suna，@鲍勃

01有话题的新闻

1、海螺 AI 推出「主体参考」功能，一张图片就能玩转电影大片

海螺 AI 推出全新主体参考功能，让 AI 视频创作再上新台阶。用户只需上传一张图片，就能让任何人物角色在各种场景中自由活动，保持高度还原的同时又不失创作自由度。

与传统的图生视频技术相比，「主体参考」采用了完全不同的技术路线。它并非简单地让静态图片产生局部动作，而是能够基于文字提示词（prompt）生成完整的视频片段。

从官方提供的视频可以看到，只要上传一张人物的照片，系统不仅可以保持人物的面部特征，还能让人物在场景中做出任何自然的连贯动作，比如滑滑板，骑车，挑眉，皱眉等，在人物的脸部情感表达上也非常的生动细腻。

在技术实现层面，海螺 AI 选择了基于图片参考的路线，而非传统的 LoRA 技术路线。这一选择使得用户无需提供大量素材，仅凭一张图片就能准确识别并还原人物特征。更重要的是，生成速度得到显著提升，从之前的漫长等待缩短到了秒级响应。

作为一家成立仅 3 年的初创企业，MiniMax 凭借海螺 AI 在全球 AI 视频生成领域确立了领先地位。未来，海螺 AI 计划将「主体参考」功能扩展到多人、物体和场景等更多领域，进一步释放创作潜能。（@ AIbase 基地）

2、阿里通义万相 2.1 模型宣布升级：首次实现中文文字视频生成功能，支持无限长 1080P 视频的高效编解码

在这里插入图片描述

阿里旗下通义万相宣布推出 2.1 版本模型升级，视频生成、图像生成两大能力均有显著提升。

在视频生成方面，通义万相 2.1 通过自研的高效 VAE 和 DiT 架构增强了时空上下文建模能力，支持无限长 1080P 视频的高效编解码，首次实现了中文文字视频生成功能，登上 VBench 榜单第一。

据介绍，通义万相 2.1 支持中英文视频，都可以一键生成艺术字，还提供多种视频特效选项，以增强视觉表现力，例如过渡、粒子效果、模拟等等。

值得一提的是，通义万相 2.1 还支持复杂运镜，可还原碰撞、反弹、切割、挤压等真实世界的物理规律，

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。