奇异值分解中的截断、对齐与随机化方法
在数据处理和分析中,奇异值分解(SVD)是一种强大的工具,但在实际应用中,我们需要面对诸如截断和数据对齐等问题,同时随机化SVD算法也为处理大规模数据提供了新的思路。
1. 截断与对齐
在使用SVD时,决定保留多少个奇异值(即截断位置)是一个非常重要且具有争议性的决策。这受到多种因素的影响,包括系统期望的秩、噪声大小以及奇异值的分布。
1.1 截断方法
- 按方差或能量截断 :通常在某个秩 $r$ 处截断SVD,以捕获原始数据中预定比例(如90%或99%)的方差或能量。尽管这种方法比较粗略,但应用广泛。
- 识别“肘部”或“膝部” :在奇异值分布中识别“肘部”或“膝部”,这些位置可能表示从代表重要模式的奇异值到代表噪声的奇异值的过渡。
- 硬阈值截断 :将截断视为对奇异值的硬阈值处理,大于阈值 $\tau$ 的奇异值被保留,其余的则被截断。Gavish和Donoho的研究提供了在特定条件下的最优截断值(硬阈值),为使用SVD获得低秩矩阵近似提供了一种原则性方法。
1.2 最优硬阈值
假设数据矩阵 $X$ 是一个低秩或近似低秩矩阵 $X_{true}$ 与噪声矩阵 $X_{noise}$ 的和:
$X = X_{true} + \gamma X_{noise}$
其中,$X_{noise}$ 的元素是独立同分布(i.i.d.)的高斯随机变量,均值为零,方差为1,$\gamma$ 表示
超级会员免费看
订阅专栏 解锁全文
4989

被折叠的 条评论
为什么被折叠?



