无属性图的信息论原型选择方法
1. 引言
关系图是表示结构模式的一种便捷方式,在图像中的形状基元或特征点排列、分子结构以及社交网络等场景中都有广泛应用。近年来,从一组样本图中学习能够捕捉结构变化的原型图受到了广泛关注。当有多个候选原型图时,如何选择最佳的原型图就成了一个问题,这属于模型选择的范畴,是模式分析中的基本任务之一。
一个好的模型应该能够很好地总结观测数据,并且具有良好的预测能力。在相关文献中,有很多选择最佳模型的原则,不过大多数原则都是通过惩罚模型的参数(或复杂度)来实现对新数据集的良好泛化。例如,赤池信息准则(AIC)通过模型自由参数数量的两倍来惩罚模型,最小描述长度准则则使用通用编码。然而,这些方法很难从向量域扩展到图域。而近似集编码等框架可以借助重要性采样等采样技术扩展到图域。
本文提出了一种为一组样本图选择最优原型大小的方法,该方法是将近似集编码理论扩展到图数据的应用。最优大小的原型图是使样本图的两个划分集之间的互信息最大化的图。为了测量互信息,需要计算两个划分集的配分函数及其联合配分函数,但计算配分函数涉及探索完整的假设空间,这对于图来说是一个NP难问题,因此本文使用重要性采样方法来寻找近似解。
2. 近似集编码
近似集编码理论中,假设是模式识别问题的解决方案。在本文的具体情况下,假设 $c$ 是将所有样本图映射(匹配)到原型图的一种方式。同时,有一个成本函数 $R(c)$ 用于评估特定匹配的质量,该成本函数自然取决于为数据样本提出的原型图。
给定从可能的原型集中(通常具有不同的大小或复杂度)选取的原型图,可以通过优化 $R(c)$ 来找到最佳匹配和原型配置,将最佳假设记为 $c_{\perp}$
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



