LSI隐性语义索引/LSA 隐性语义分析

本文探讨了潜在语义索引(LSI)如何利用奇异值分解(SVD)来提升文档检索效率。通过降低文档-词汇矩阵的维度, SVD能够揭示文档间的隐含联系,解决拼写错误及同义词带来的问题。文章还介绍了SVD分解过程中的能量保留策略,并解释了为何需要对原始矩阵进行降秩。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

在LSI中,一个矩阵是由文档和词语组成的。当我们在该矩阵上应用SVD时,就会构建出多个奇异值。这些奇异值代表了文档中的概念或主题,这一特点可以用于更高效的文档搜索。在词语拼写错误时,只基于词语存在与否的简单搜索方法会遇到问题。简单搜索的另一个问题是同义词的使用。这就是说,当我们查找一个词时,其同义词所在的文档可能并不会匹配上。如果我们从上千篇相似的文档中抽取出概念,那么同义词就会映射为同一概念。文档-词汇矩阵常用的元素加权为tf-idf值,SVD分解后进行相似度的计算。常用的计算相似度的方法有:欧式距离,皮尔逊稀疏,余弦距离。

确定要保留的奇异值的数目有很多启发式策略,其中一个典型的做法是保留矩阵中90%的能量信息。为了计算总能量信息,将所有的奇异值求其平方和,于是可以将奇异值的平方和累加到总值的90%为止。

SVD分解减秩的原因:

  1. 原始词汇-文档矩阵太大,会浪费过多计算资源;
  2. 原始矩阵是有噪的;
  3. 原始矩阵是稀疏的。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值