LSI(潜在语义索引)主题建模简介

一、潜在语义索引(Latent Semantic Indexing,以下简称LSI)

(一)简介
有的文章也叫Latent Semantic Analysis(LSA)。在这里我称做LSI,它是一种简单实用的主题模型,也是最早出现的主题模型了,它的算法原理很简单,是基于奇异值分解(SVD)的方法来得到文本的主题的。一次奇异值分解就可以得到主题模型,同时解决词义的问题,非常漂亮。但是LSI有很多不足,导致它在当前实际的主题模型中已基本不再使用。
(二)应用
得出文本的主题模型;
通过LSI得到的文本主题矩阵可以用于文本相似度计算,而计算方法一般是通过余弦相似度;
(三)存在的问题
1) SVD计算非常的耗时,尤其是我们的文本处理,词和文本数都是非常大的,对于这样的高维度矩阵做奇异值分解是非常难的。

2) 主题值的选取对结果的影响非常大,很难选择合适的k值。

3) LSI得到的不是一个概率模型,缺乏统计基础,结果难以直观的解释。

二、SVD(奇异值分解)

(一)什么是奇异值
奇异值是矩阵里的概念,一般通过奇异值分解定理求得。设A为m×n阶矩阵,q=min(m,n),A*A的q个非负特征值的算术平方根叫作A的奇异值。奇异值分解是线性代数和矩阵论中一种重要的矩阵分解法,适用于信号处理和统计学等领域。(来源:百度百科
(二)奇异值分解(Singular Value Decomposition)
奇异值分解(Singular Value Decomposition,以下简称SVD)是在机器学习领域广泛应用的算法,它不光可以用于降维算法中的特征分解,还可以用于推荐系统,以及自然语言处理等领域,是很多机器学习算法的基石。
1.知识基础(线性代数):
特征值和特征向量
在这里插入图片描述其中A是一个n×n的实对称矩阵,x是一个n维向量,则我们说λ是矩阵A的一个特征值,而x是矩阵A的特征值λ所对应的特征向量。
矩阵的特征分解
具体见:https://www.cnblogs.com/pinard/p/6251584.html

参考:
https://www.cnblogs.com/pinard/p/6805861.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值