http://blog.youkuaiyun.com/aalbertini/archive/2011/03/18/6259066.aspx
1) 将Term Document矩阵进行svd, 得到 TSD'
2) 对于新文档构成的列向量Q, 计算其文档坐标 Dq=Q'TS"
3) Dq 与 DS的行向量计算夹角, 判断距离
因此看, LSA的作用是进行相关性判断
SVD的作用: 降维。 降维的同时达到了潜在语义索引的目的。
SVD、降维之后得到近似term document矩阵A
A*A'中的元素(i,j)表示第i个term与第j个term的相关性
A'*A中的元素(i,j)表示第i个doc与第j个doc的相关性
A = TSD = TSh (DSh)' 中的元素(i,j)表示第i个term在各个doc中的权重 Sh表示S的1/2次
可以采用TS DS从而不用计算A*A'的方式完成所有计算
348

被折叠的 条评论
为什么被折叠?



