BigGAN学会“七十二变”：跟着视频模仿动物，看到啥就能变啥

最新推荐文章于 2025-05-18 21:58:10 发布

转载最新推荐文章于 2025-05-18 21:58:10 发布 · 458 阅读

·

0

·

晓查发自凹非寺
量子位出品 | 公众号 QbitAI

640?wx_fmt=png

BigGAN从出现第一天起，就以它逼真的生成图像征服了各路网友。

这两天，BigGAN又被开发出了新的玩法。

以前BigGAN只是用来生成静态图片，现在它已经学会了孙悟空的“七十二变”。给它一段视频，它就可以随着视频实时变化。

总之，视频里有啥，它就能变啥。

看我七十二变

作者给图像生成器输入了一段BBC《行星地球》纪录片的视频，接着模型能输出猴子、猎豹、企鹅等图像。

640?wx_fmt=jpeg

640?wx_fmt=jpeg

640?wx_fmt=jpeg

能快速根据视频内容输出图片已经很厉害了，更厉害的还在后面。

它生成可不仅仅是PPT，而是可以随着视频中物体的变化，平滑地过渡。在各种鸟类之间从容变换：

640?wx_fmt=gif

还能模仿多种蘑菇：

640?wx_fmt=gif

即使跨物种也不成问题，从企鹅到大象，变化自然：

640?wx_fmt=gif

这段视频效果惊人，今天凌晨作者在Twitter上放出以后，目前已有300多位网友点赞。有人表示非常喜欢作者的这项研究成果。

640?wx_fmt=png

但也有细心网友发现了其中的错误。

作者表示，现在的Demo仅仅在模仿动物时比较成功，对其他种类物品的理解会出现偏差。比如在上面的视频中，BigGAN就错误地把太阳模仿成了火苗。

640?wx_fmt=jpeg

有人向作者提问，是否是利用视频内容对模型进行训练。作者称，模型并不是由视频训练而来，而是在ImageNet图片数据集上进行训练的。

一个会编程的艺术家

开发该项目的作者名叫Gene Kogan，他既是一个艺术家，同时也是程序员，可谓是站在科技与人文的十字路口。他在纽约大学任教，曾开设过一个面向艺术家的机器学习课程。

640?wx_fmt=jpeg

Gene还创建了ml4a项目，一本面向艺术家、公民科学家的免费机器学习书籍。目前该书还在撰写中，部分章节已经完成，并且有中文翻译！

Gene他希望以此促进公众对计算机视觉领域的了解。

资源地址

ml4a项目地址（有中文）：
http://ml4a.github.io/ml4a/

Gene Kogan的GitHub主页：
https://github.com/genekogan

作者的BigGAN笔记和Demo：
https://colab.research.google.com/drive/1rqDwIddy0eunhhV8yrznG4SNiB5XWFJJ#scrollTo=USNAsSLtqf8N

作者系网易新闻·网易号“各有态度”签约作者

— 完 —

活动报名

640?wx_fmt=jpeg

加入社群

量子位AI社群开始招募啦，欢迎对AI感兴趣的同学，在量子位公众号（QbitAI）对话界面回复关键字“交流群”，获取入群方式；

此外，量子位专业细分群(自动驾驶、CV、NLP、机器学习等)正在招募，面向正在从事相关领域的工程师及研究人员。

进专业群请在量子位公众号（QbitAI）对话界面回复关键字“专业群”，获取入群方式。（专业群审核较严，敬请谅解）

诚挚招聘

量子位正在招募编辑/记者，工作地点在北京中关村。期待有才气、有热情的同学加入我们！相关细节，请在量子位公众号(QbitAI)对话界面，回复“招聘”两个字。

640?wx_fmt=jpeg

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。