
开发者朋友们大家好:
这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 新闻 」、「有态度的 观点 」、「有意思的 数据 」、「有思考的 文章 」、「有看点的 会议 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
本期编辑:@Suna,@鲍勃
01有话题的新闻
1、海螺 AI 推出「主体参考」功能,一张图片就能玩转电影大片
海螺 AI 推出全新主体参考功能,让 AI 视频创作再上新台阶。用户只需上传一张图片,就能让任何人物角色在各种场景中自由活动,保持高度还原的同时又不失创作自由度。
与传统的图生视频技术相比,「主体参考」采用了完全不同的技术路线。它并非简单地让静态图片产生局部动作,而是能够基于文字提示词(prompt)生成完整的视频片段。
从官方提供的视频可以看到,只要上传一张人物的照片,系统不仅可以保持人物的面部特征,还能让人物在场景中做出任何自然的连贯动作,比如滑滑板,骑车,挑眉,皱眉等,在人物的脸部情感表达上也非常的生动细腻。
在技术实现层面,海螺 AI 选择了基于图片参考的路线,而非传统的 LoRA 技术路线。这一选择使得用户无需提供大量素材,仅凭一张图片就能准确识别并还原人物特征。更重要的是,生成速度得到显著提升,从之前的漫长等待缩短到了秒级响应。
作为一家成立仅 3 年的初创企业,MiniMax 凭借海螺 AI 在全球 AI 视频生成领域确立了领先地位。未来,海螺 AI 计划将「主体参考」功能扩展到多人、物体和场景等更多领域,进一步释放创作潜能。(@ AIbase 基地)
2、阿里通义万相 2.1 模型宣布升级:首次实现中文文字视频生成功能,支持无限长 1080P 视频的高效编解码

阿里旗下通义万相宣布推出 2.1 版本模型升级,视频生成、图像生成两大能力均有显著提升。
在视频生成方面,通义万相 2.1 通过自研的高效 VAE 和 DiT 架构增强了时空上下文建模能力,支持无限长 1080P 视频的高效编解码,首次实现了中文文字视频生成功能,登上 VBench 榜单第一。
据介绍,通义万相 2.1 支持中英文视频,都可以一键生成艺术字,还提供多种视频特效选项,以增强视觉表现力,例如过渡、粒子效果、模拟等等。
值得一提的是,通义万相 2.1 还支持复杂运镜,可还原碰撞、反弹、切割、挤压等真实世界的物理规律,

最低0.47元/天 解锁文章
303

被折叠的 条评论
为什么被折叠?



