数据降维中的关键概念与计算细节
1. Kullback–Leibler散度
Kullback–Leibler散度在数据处理和分析中有着重要的应用。广义Kullback–Leibler散度的表达式为:
[D_{gKL}(u, v) = \sum_{i} \left( u_i \log \frac{u_i}{v_i} + v_i - u_i \right)]
当(u)和(v)为概率分布,即(\sum_{i} u_i = \sum_{i} v_i = 1)时,广义Kullback–Leibler散度就退化为经典的Kullback–Leibler散度:
[D_{KL}(u, v) = \sum_{i} u_i \log \frac{u_i}{v_i}]
2. 硬邻域下的困惑度
在硬邻域的情况下,成员度可以用扁平核来表示:
[\beta_{ij} = \frac{1_{\mathbb{R}^+}(1 - \frac{\xi_{ij}}{\sigma_i})}{\sum_{k\neq i} 1_{\mathbb{R}^+}(1 - \frac{\xi_{ik}}{\sigma_i})}]
[b_{ij} = \frac{1_{\mathbb{R}^+}(1 - \frac{D_{ij}}{s_i})}{\sum_{k\neq i} 1_{\mathbb{R}^+}(1 - \frac{D_{ik}}{s_i})}]
其中(1_{\mathbb{R}^+})是Heaviside函数。分布(\beta_i)的熵为:
[H_i = - \sum_{j\neq i} \beta_{ij} \log \beta_{ij} = \