基于改进原型嵌入的广义中位数计算方法
在机器学习和模式识别领域,从一组给定对象中学习原型是一个核心问题。一种流行的共识学习方法是将其表述为广义中位数计算的优化问题。然而,广义中位数计算在许多情况下具有较高的计算复杂度,因此需要近似解决方案。本文将介绍一种原型嵌入方法,并提出几种改进的重建方法,以提高共识学习的质量。
1. 广义中位数计算问题
学习原型在机器学习和模式识别中至关重要,有众多应用场景。例如在文本识别的多分类器组合中,算法参数的变化或不同算法的使用会导致不同结果,共识方法可产生一个能代表不同结果的文本,从而消除错误和异常值。
广义中位数计算是一种流行的共识学习方法。给定一组对象 $O = {o_1, \ldots, o_n}$ 以及距离函数 $\delta(o_i, o_j)$,广义中位数可表示为:
$\overline{o} = \arg \min_{o \in O} SOD(o)$
其中,$SOD(o) = \sum_{p \in O} \delta(o, p)$,即广义中位数是与所有输入对象距离之和最小的对象,且该对象不一定是集合 $O$ 中的元素。
广义中位数的概念已在众多问题领域得到研究,但在许多情况下,其计算复杂度较高。例如,对于字符串编辑距离,广义中位数字符串的计算是 NP 难问题;在广义 Kendall - τ 距离下的中位数排序以及合理聚类距离函数下的集成聚类也是如此。因此,需要近似解决方案来在合理时间内计算广义中位数。
2. 原型嵌入方法
原型嵌入方法是一种适用于任何问题领域的方法,其包括以下三个步骤:
1. 嵌入对象到欧几里得度量空间 <
超级会员免费看
订阅专栏 解锁全文
1287

被折叠的 条评论
为什么被折叠?



