一、主要贡献
1、通过深度神经网络的第一个数据驱动的离散图形模式的感知分类。
2、在模式设计中通过编码图形化元素得到可学习的形状、上下文和结构意识描述子。
3、一个已标注的拥有丰富模式分类和关系的大数据集,有助于未来对模式分析和处理的研究。
二、大纲
本文网络结构主要分为两个子网络,上半部分被称为原子元素编码网络,输入是成对的原子元素,编码出形状-和上下文-感知描述子。
下半部分被称为结构编码网络,整张图片作为输入,尝试检测其中结构化的存在,像对称性的存在,然后对每个像素输出一个结构-感知描述子。
每一个元素的编码由形状-、上下文-、该元素覆盖的结构-感知描述子的均值、图心位置和尺寸描述子组成。通过对比损失进行训练。最后通过聚类算法将特征距离相近的元素分成一组。
三、结果
3.1训练
为了训练这个网络,本文雇了11个设计师画了820个图案,然后用原子元素集合填充生成了7891张图片作为训练集,填充时元素可以通过各种仿射或者对称变换。在这些图片种本文采集了500对正例和500对反例。
3.2结果评估
本文使用两种聚类常用的评价指标:纯度和边缘索引
本文通过亲密度传播算法《Clustering by Passing Messages Between Data Points》在两种模式下计算分组:
- a. preset #group 为亲密度传播算法提供所需的(基本事实)组的数量,并强制它在每个测试用例中产生相同数量的集群。
- b. auto #group 亲密度传播算法在没有指定集群目标数量的情况下工作,使用内部首选参数,该参数控制集群的粒度,并影响生成的集群数量。
3.3结果展示
等等
四、总结
辨别不同形式和复杂性的模式是人类最基本的能力之一。本文提出了基于数据的、基于深度学习的离散图形模式分组方法,使我们能够更好地理解这种模式被感知的方式。
不足:
1、训练集不够丰富,习得的特征并不能将测试集全分好,比如熊。
2、本文以元素是预分割好的或者元素在输入图片中是连续的区域为前提。
3、本文方法不包含显著的标签和语义知识,加入这些信息这可能会帮助消除歧义。
4、本文方法只是一个简单的分组并没有保证这种分类是最有意义的。
五、未来工作
- 联合分割图片到基本元素并分组可能对自然图片分割任务有利
- 形状-,上下文-和结构-意识描述子是线性结合的可以尝试非线性组合的方法。
- 本文的三种描述子可以用于分析其他类型的图片,用于其他任务等等