可让照片人物“开口说话”阿里图生视频模型EMO,高启强普法

阿里巴巴研究团队开发的EMOAI框架能将人物照片与音频结合,生成逼真的说话和唱歌视频。基于Audio2Video扩散模型,经过大量训练,EMO展示了高仿真度和多语言支持的能力。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

3 月 1 日消息,阿里巴巴研究团队近日发布了一款名为“EMO(Emote Portrait Alive)”的 AI 框架,该框架号称可以用于“对口型”,只需要输入人物照片及音频,模型就能够让照片中的人物开口说出相关音频,支持中英韩等语言。

据悉,EMO 基于英伟达的 Audio2Video 扩散模型打造,号称使用了超过 250 小时的专业视频进行训练,从而得到了相关 AI 框架。 

注意到,研究团队分享了几段由 EMO 框架生成的 DEMO 演示片段,并在 ArXiv 上发布了模型的工作原理,感兴趣的小伙伴也可以访问 GitHub 查看项目。

据介绍,该框架工作过程分为两个主要阶段,研究人员首先利用参考网络(ReferenceNet)从参考图像和动作帧中提取特征,之后利用预训练的音频编码器处理声音并嵌入,再结合多帧噪声和面部区域掩码来生成视频,该框架还融合了两种注意机制和时间模块,以确保视频中角色身份的一致性和动作的自然流畅。

研究人员援引一系列实验结果,声称 EMO 不仅能够产生令人信服的说话视频,还能生成各种风格的歌唱视频,号称“显著优于目前的 DreamTalk、Wav2Lip、SadTalker 等竞品”。

据悉࿰

### 成视频的大规模模型 #### 主流模型概述 当前,在成视频领域,扩散模型成为主流技术之一。这类模型通过迭代去噪过程从噪声中逐步构建出完整的视频内容[^3]。 #### AI框架与开源项目 1. **DALLE-2** DALLE-2 是由 OpenAI 开发的一个大的多模态成模型,不仅擅长于静态片的成,还支持基于给定的一系列帧创建连贯的动画或短视频片段。尽管官方并未完全开放源码,社区内存在多个仿制版本可供探索和实验。 2. **Make-A-Video** Make-A-Video 是 Meta 发布的一款专注于将单张或多张静止像转换成动态影像的产品级解决方案。该工具利用先进的神经网络结构实现了高质量的视频合成,并且已经部分开源,允许开发者在其基础上进一步开发应用。 3. **Phenaki** Phenaki 作为另一个值得关注的研究成果,它能够在仅提供少量指导性提示的情况下成逼真的连续动作场景。此项目的独特之处在于其对于复杂时空关系的有效建模以及较低的数据需求特性,使得即使是在资源有限环境下也能高效运行。 4. **Text-to-video diffusion models (TVDiff)** TVDiff 提供了一种全新的视角来看待文本到视频的任务转化流程。不同于传统方法侧重于先成中间表示再映射至目标域的方式,TVDiff 将整个过程视为一个端到端的学习问题,从而简化了设计思路并提高了最终产出的质量。 ```python import torch from diffusers import DiffusionPipeline pipeline = DiffusionPipeline.from_pretrained('model_name') video_frames = pipeline(prompt="描述文字").frames ```
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值