1.Introduction
在向量模型中,将查询和文档均表示成同一空间下的向量,可以使用余弦相似度进行评分计算。但是,向量空间表示方法没有能力处理自然语言理解中的两个经典问题:一词多义(polysemy)和一义多词(synonymy)。使用LSI可以利用词项的共现情况,将词和文档映射到潜在语义空间,从而去除了原始向量空间中的一些“噪音”,提高了信息检索的精确度。
2.SVD分解
本文介绍了潜在语义索引(LSI)的概念,它通过SVD分解解决向量空间模型中的一词多义和一义多词问题。LSI将词项和文档映射到低维潜在语义空间,提高了信息检索的精度。尽管LSI存在计算成本高和无法处理否定及布尔查询的缺点,但在适当降低维度时,仍能有效提升检索效果。
1.Introduction
在向量模型中,将查询和文档均表示成同一空间下的向量,可以使用余弦相似度进行评分计算。但是,向量空间表示方法没有能力处理自然语言理解中的两个经典问题:一词多义(polysemy)和一义多词(synonymy)。使用LSI可以利用词项的共现情况,将词和文档映射到潜在语义空间,从而去除了原始向量空间中的一些“噪音”,提高了信息检索的精确度。
2.SVD分解
4750
1万+

被折叠的 条评论
为什么被折叠?