这项技术可以合成以假乱真的奥巴马视频

最新推荐文章于 2025-08-11 16:25:07 发布

转载最新推荐文章于 2025-08-11 16:25:07 发布 · 593 阅读

·

0

·

CC 4.0 BY-SA版权

原文链接：https://yq.aliyun.com/articles/497943

文章标签：

华盛顿大学研究人员开发了一种新算法，能用现有音频与视频素材合成高逼真假视频。通过神经网络分析奥巴马数百万帧视频，实现了视频中人物与音频内容的自然匹配。未来可能改善视频会议质量。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

本文来自AI新媒体量子位（QbitAI）

640?wx_fmt=png&wxfrom=5&wx_lazy=1 △ 奥巴马镇楼

可能奥巴马也要分辨不出自己视频的真假了，这也不能怪他。

一种新算法可以用现有的音频与视频素材，合成高逼真的假视频。也就是说，我们可以将一段音频加到任意视频片段中，看起来会像视频里的人真的在说这段话。

奥巴马的假视频就是这样被合成的，看起来还比较流畅——

0?wx_fmt=gif&wxfrom=5&wx_lazy=1

0?wx_fmt=gif&wxfrom=5&wx_lazy=1

△ 视频请去百度云观看，地址：
https://pan.baidu.com/s/1eSGf96q

这项技术由华盛顿大学SUPASORN SUWAJANAKORN等三人共同发明，他们坦言，之所以选用奥巴马做研究范例，是因为他的高清视频资源获取非常容易，并且不受版权限制。

因此，研究小组用神经网络分析了数百万帧的视频，来确定奥巴马的面部表情如何变化。开口说话需要整个面部器官的协调，所以研究人员不仅分析了口型变化，还包括他的嘴唇、牙齿和下巴周围的皱纹，甚至还包括脖子与衣领。

640?wx_fmt=png&wxfrom=5&wx_lazy=1

该技术研发人员之一IRA指出，这项技术可以用于改善视频会议的质量——电话会议中的视频输出可能会有口吃、卡顿或分辨率低等现象，但音频传输通常非常流利。

因此在将来，视频会议可能会变成传话人传输音频，并使用该软件重建人物谈话时的面部表情。

研究人员也指出，目前的合成视频并不完美（也会穿帮）。当视频中的奥巴马将抬头向上看时，可能嘴巴会出现在脸部之外。

因为这个算法不会模仿情绪，所以有时输出的奥巴马视频看起来会不合时宜地非常严肃，或者对于严肃的演讲来说，显得太开心了。

640?wx_fmt=png&wxfrom=5&wx_lazy=1

△ 两组原视频与合成视频对比图

心疼奥巴马。

最后，附奥巴马表情包论文地址：

http://grail.cs.washington.edu/projects/AudioToObama/siggraph17_obama.pdf

【完】

本文作者：安妮

原文发布时间：2017-07-13

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。