判别式降维映射与公交行程时长偏差分析
1. 判别式核t - SNE
t - 分布随机邻域嵌入(t - SNE)是一种高度灵活的降维技术,它能保留数据和投影空间中由成对距离所诱导的概率。
在原始空间中,数据点 $x_i$ 会诱导出成对概率 $p_{ij} = \frac{p(i|j) + p(j|i)}{2N}$,其中 $N$ 是数据点的数量,且:
[p_{j|i} := \frac{\exp(-\frac{|x_i - x_j|^2}{2\sigma_i^2})}{\sum_{k\neq i} \exp(-\frac{|x_i - x_k|^2}{2\sigma_i^2})}]
带宽参数会进行局部设置,以使有效邻居数量与数据集的合理比例相对应。投影点 $y_i$ 会诱导出成对概率:
[q_{ij} := \frac{(1 + |y_i - y_j|^2)^{-1}}{\sum_{k\neq l} (1 + |y_k - y_l|^2)^{-1}}]
t - SNE 的目标是找到投影点 $y_i$,使得通过 Kullback - Leibler 散度衡量的这些概率差异最小化,这通常使用梯度技术来实现。不过,该技术没有提供显式映射 $x \to y = y(x)$。因此,在处理新的数据点时,必须解决一个新的优化问题。此外,t - SNE 的计算成本是二次的,这使得它很难应用于大型数据集。
为了解决这些问题,有人提出将 t - SNE 扩展为显式核映射,即核 t - SNE。该映射由以下函数表征:
[x \to y(x) = \sum_{j} \alpha_j \cdot \frac{k(x, x_j)}{\sum_{l} k(x, x_l)}
判别式降维与公交时长偏差分析
超级会员免费看
订阅专栏 解锁全文
1105

被折叠的 条评论
为什么被折叠?



