从俄罗斯方块到星际2,全都用得上:DeepMind无监督分割大法,为游戏而生

方栗子 发自 凹非寺 
量子位 报道 | 公众号 QbitAI

640?wx_fmt=gif

只给AI喂一张图片。

画里的各种物件,瞬间变成了独立的个体。可以移动起来,可以变形变色,毫无PS痕迹。

就连绿色的地板和黄色的墙,都不用安然站在那里不动:

640?wx_fmt=gif

这段表演,来自DeepMind最新发布的神经网络MONet (简称“莫奈”) 。

它把每个物体,圆满地从背景里分离出来。这样的技能,完全是在无监督的学习过程中解锁的。

与莫奈一同发布的,还有一只叫做IODINE (简称“碘”) 的网络。

它也是无监督网络,也可以让画面里的每一个角色,都成为独立的自我,随意奔跑,野蛮生长。

640?wx_fmt=gif

不过,这两个网络用的分割方法,还是非常不同的:

莫奈与碘

莫奈 (MONet) ,是从背景开始,每次只分割出一个物体

一步一步叠加上去。如下图,橘黄色→黄色→绿色→蓝色:

640?wx_fmt=gif

那么,来仔细认识一下莫奈的网络结构。

它是一只VAE (变分自编码器) 和一只注意力网络的结合:

640?wx_fmt=png

注意力网络是循环 (Recurrent) 出现的,它会不断地产生掩膜 (Mask) ,不断地对VAE做出调整。

每一步里,注意力网络都是不同的,是随着上一步分割出的场景而变化的。这样,每一步输出的重构图也是不同的。

最终,会集齐画面里的所有物体。这时候,每个存在都是独立的了。

你看,学打星际2的强化学习AI,要先了解敌人的行动规律。这时候,MONet就可以帮忙:

640?wx_fmt=gif

而与莫奈不同, (IODINE) 不会一次只分一个物体。它会直接生成全场的分割图:

640?wx_fmt=gif

一开始是全然靠猜,然后会在一次一次迭代里面,不断细化 (Refine) 这个分割结果。

具体到网络结构上看,首先是这里的VAE和莫奈不一样。

莫奈的是普通VAE (下图左) ,碘的是多物体VAE (下图右) :

640?wx_fmt=png

多物体VAE每一次工作,都会把画面里的所有物体,从背景里分割出来。

然后,怎样从一开始纯猜的各种后验参数λ,进化到最终的精确分割呢?

需要一个迭代推理过程:

640?wx_fmt=png

思路是来自Marino等人2018年发表的迭代摊销推理 (Iterative Amortized Inference) 方法,这里先不详细介绍了 (文底有传送门) 。

不过,团队说这样的方法,可以让模型解锁多重稳定性 (Multi-Stability) ,和人类的感知相近了。

你看,就算只给出“一坨“俄罗斯方块,AI也能把它分成几块独立的形状:

640?wx_fmt=gif

有了莫奈和碘的分解大法,AI的表征学习 (Representation Learning) 便可得心应手。

瑟瑟发抖

团队说,一开始想做这样的网络,就是要给强化学习AI打游戏用的。

曾经在星际II的战场上,神族最强十人之一的LiquidMaNa,与DeepMind人工智能选手AlphaStar对战五局,双方都是神族。

MaNa全部GG。最短的一局,只有5分36秒。

640?wx_fmt=gif

而DeepMind每一日都在进化自家的算法,每一日都在开发新的算法。

人类下一个瑟瑟发抖的日子,可能很快就要来了。

MONet论文传送门:
https://arxiv.org/abs/1901.11390

IODINE论文传送门:
https://arxiv.org/abs/1903.00450

Iterative Amortized Inference论文传送门:
https://arxiv.org/abs/1807.09356

作者系网易新闻·网易号“各有态度”签约作者

订阅AI内参,获取AI行业资讯

640?wx_fmt=jpeg

加入社群

量子位AI社群开始招募啦,量子位社群分:AI讨论群、AI+行业群、AI技术群;


欢迎对AI感兴趣的同学,在量子位公众号(QbitAI)对话界面回复关键字“微信群”,获取入群方式。(技术群与AI+行业群需经过审核,审核较严,敬请谅解)

诚挚招聘

量子位正在招募编辑/记者,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号(QbitAI)对话界面,回复“招聘”两个字。

640?wx_fmt=jpeg

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

喜欢就点「好看」吧 !

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值