数据处理中的关键技术:从Kullback - Leibler散度到主成分分析
1. Kullback - Leibler散度相关内容
1.1 广义Kullback - Leibler散度
广义Kullback - Leibler散度公式为:
[D_{gKL}(u, v) = \sum_{i} \left( u_i \log \frac{u_i}{v_i} + v_i - u_i \right)]
当 (u) 和 (v) 为概率分布,即 (\sum_{i} u_i = \sum_{i} v_i = 1) 时,广义Kullback - Leibler散度退化为经典的Kullback - Leibler散度:
[D_{KL}(u, v) = \sum_{i} u_i \log \frac{u_i}{v_i}]
1.2 硬邻域下的困惑度
在硬邻域情况下,隶属度可表示为:
[\beta_{ij} = \frac{\mathbb{1} {\mathbb{R}^+}(1 - \frac{\Delta {ij}}{\sigma_i})}{\sum_{k\neq i} \mathbb{1} {\mathbb{R}^+}(1 - \frac{\Delta {ik}}{\sigma_i})}]
[b_{ij} = \frac{\mathbb{1} {\mathbb{R}^+}(1 - \frac{D {ij}}{s_i})}{\sum_{k\neq i} \mathbb{1} {\mathbb{R}^+}(1 - \frac{D {ik}