信息理论学习中的核希尔伯特空间与互相关熵
1. 核希尔伯特空间与信息理论学习的联系
在信息理论学习(ITL)中,存在一个名为 Hν 的再生核希尔伯特空间(RKHS),其元素为概率密度函数(PDF),核函数是交叉信息势(CIP)。两个 PDF 之间的内积对于聚类中的距离测量至关重要,同时也出现在散度度量和二次互信息中。从 RKHS 的角度来看,这个内积定义了 PDF 空间中的自然相似性度量。
之前我们直接从样本中使用信息势来估计各种量,而这些估计量实际上与核方法直接对应。当在数据样本上放置一个核时,我们定义了一个存在于由该核定义的 RKHS 中的函数。因此,信息理论估计量可以被重新解释为核操作:信息势估计量是投影样本的均方范数,柯西 - 施瓦茨散度估计量是投影样本之间夹角余弦的对数。
我们还建立了 Hν 与 ITL 估计量中使用的核所定义的 Hκ 之间的关系:在由核定义的 RKHS 中,数据样本的均值存在于 Hν 中。某些在核空间中定义的统计算子确实对应于 ITL 量,例如最大均值差异(MDD)在 Hν 中变为欧几里得距离。
此外,一些核方法中的知名解决方案可以用 ITL 描述符来解释。例如,支持向量机(SVM)可以被解释为使用加权 Parzen 窗口估计的类间欧几里得距离的最大化,其中权重基本上是定义支持向量的拉格朗日乘子。
CIP V (p, q) = ∫ p(x)q(x)dx 是所有这些关系背后的关键概念,它定义了 Hν,当 p(x) = q(x) 时,它定义了 PDF 的二次范数,从而得到了 Renyi 熵的估计量。这建立了信息的统计观点和函数观点之间的协同作用。
作为 RKHS 方法的一个应用,当数据的原始空间结
超级会员免费看
订阅专栏 解锁全文
2468

被折叠的 条评论
为什么被折叠?



