基于SRP编码数据的分类方法研究
在处理高维稀疏数据时,传统的机器学习方法面临着巨大的挑战,如内存限制和计算复杂度高等问题。本文将介绍一系列基于稀疏随机投影(SRP)编码数据的分类方法,并通过实验对比它们在不同数据集上的性能。
1. 稀疏随机投影(SRP)
在高维数据中,标准机器学习方法在低维表示的数据上表现良好。Johnson - Lindenstrauss引理表明,当数据样本数量小于原始维度(数百万)时,该引理适用。然而,直接计算高维投影会超出当代计算机的内存容量。因此,使用稀疏随机投影矩阵来近似正交投影。
设随机投影矩阵为 $W$,原始高维数据为 $X$。只要 $W$ 和 $X$ 是稀疏的,就可以高效地计算 $W^T X$。$W$ 的元素分布如下:
[
w_{ij} =
\begin{cases}
-\sqrt{\frac{s}{d}} & \text{概率为 } \frac{1}{2s} \
0 & \text{概率为 } 1 - \frac{1}{s} \
+\sqrt{\frac{s}{d}} & \text{概率为 } \frac{1}{2s}
\end{cases}
]
其中 $s = \frac{1}{\text{density}}$,$d$ 是目标维度。
2. 分类方法
2.1 极限学习机(ELM)
极限学习机是一种单隐藏层前馈神经网络,仅优化输出层权重 $\beta$,输入层和隐藏层之间的权重 $w_{kj}$ 随机分配。对于输入向量 $x_i$($i \in [1, N]$)组
超级会员免费看
订阅专栏 解锁全文
1524

被折叠的 条评论
为什么被折叠?



