潜在语义分析与非负矩阵分解算法详解
1. 潜在语义分析算法(LSA)
潜在语义分析(LSA)是一种用于文本分析的重要技术,它借助奇异值分解(SVD)对词 - 文本矩阵进行处理,从而获取主题向量空间以及文本在该空间中的表示。
1.1 矩阵奇异值分解算法
-
词 - 文本矩阵 :给定文本集合 (D = {d_1, d_2, \cdots, d_n}) 和词集合 (W = {w_1, w_2, \cdots, w_m}),LSA 首先将这些数据整理成一个 (m\times n) 的词 - 文本矩阵 (X):
[
X =
\begin{bmatrix}
x_{11} & x_{12} & \cdots & x_{1n} \
x_{21} & x_{22} & \cdots & x_{2n} \
\vdots & \vdots & \ddots & \vdots \
x_{m1} & x_{m2} & \cdots & x_{mn}
\end{bmatrix}
]
其中,元素 (x_{ij}) 表示词 (w_i) 在文本 (d_j) 中的频率或权重。 -
截断奇异值分解 :LSA 利用主题数量 (k) 对词 - 文本矩阵 (X) 进行截断奇异值分解:
[
X \approx U_k \Sigma_k V_k^T =
\begin{bm
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



