通过简单图元抽象草图
1. 引言
想象一下玩“画图猜物”游戏,一名玩家选择一个物体,比如人脸,然后逐步绘制,用大圆代表头部,小线条代表眼睛,弧线代表嘴巴,直到其他玩家猜出该物体。这个游戏的关键在于,用尽可能少的部分来分解并表示物体,让其他玩家能快速识别。这体现了人类识别物体最显著部分,并将其转化为可解释的交流方式的能力,也就是在思考、识别和描述物体时具备高度抽象的能力。
受此启发,我们提出了基于图元的草图抽象这一新的表示学习任务,目标是用一组固定的简单图元来表示自由形式的草图。草图是完成此任务的理想工具,因为它能捕捉物体的关键部分,同时去除可能有干扰的纹理和颜色信息。不过,由于成长环境和文化的影响,不同人的绘画风格和技巧各异,这导致他们绘制同一物体的方式不同。但我们认为,每个物体类别都存在一种基本的表示形式。例如,当一个人用固定的形状字典绘制想象中的物体时,另一个人仍能正确猜出该物体。
为解决基于图元的草图抽象任务,我们提出了一种自监督深度模型——图元匹配网络(PMN)。与标准的草图抽象方法不同,PMN 不是选择原始笔画的子集,而是将笔画映射到预定义的图元词汇表中,并设置了预算限制。这种表示草图的方式有两个主要优点:一是减少了草图表示的内存占用,使我们可以通过图元而非笔画坐标来交流草图;二是提高了草图的可解释性,便于比较和对比不同的草图。
PMN 模型会将草图的每个笔画替换为一个图元。具体做法是,将每个笔画映射到给定集合中最相似的图元,并预测一个仿射变换,使所选图元与目标笔画对齐。我们通过比较目标笔画和基于图元的版本的距离变换来训练 PMN。在测试时,给定一个草图,我们可以高效地选择一组图元及其空间变换,使生成的草图完全由图元形状组成,同时尽可能接近原始草图。
超级会员免费看
订阅专栏 解锁全文
37

被折叠的 条评论
为什么被折叠?



