隐含语义索引——快速教程(Latent Semantic Indexing(LSI)---A Fast Track Turorial)-优快云博客

这篇快速教程介绍了如何使用SVD（奇异值分解）和TermCountModel对查询和文档进行评分及排名。在LSI的例子中，涉及一个包含三个文档的集合，讨论了停用词的处理、词频作为termweights的方法，以及LSI模型的工作原理。通过计算余弦相似度，展示了文档d2在查询“goldsilvertruck”时的排名高于d3和d1。教程还探讨了不同termweight定义下的LSI计算过程。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

摘要：

这个快速教程提供了为查询和文档打分与使用SVD（奇异值分解）和term count model来对结果排名的说明。这个教程可以用作一个SVD的快速引用。LSI教程系列在下面的网址下描述： http://www.miislita.com/information-retrieval-tutorial/svd-lsi-tutorial-1-understanding.html

关键字：

latent semantic indexing, LSI, singular value decomposition, SVD, eigenvectors, documents, queries, cosine similarity, term count model

背景：下文中使用的LSI示例来源于Information Retrieval, Algorithms and Heuristics (1)

一个collection由下面的documents组成：

d1: Shipment of gold damaged in a fire.

d2: Delivery of silver arrived in a silver truck.

d3: Shipment of gold arrived in a truck.

作者使用Term Count Model 去定义term weights和query weights，所以local weights被定义为词汇出现的频率。下面的文档索引规则被用到：

1、停用词不会被忽略

2、文本是已经分词的并且都是小写的

3、词干化没有被用到

4、词语按照字母顺序排列

在这个教程当中我们想要使用这个示例去解释LSI是怎么工作的。现在我们已经知道大部分的LSI模型不再是仅仅的基于local weights，而是把local，global和document normalization weights结合计算。其他的还有entropy weights和link weights。我们知道现代模型都忽略了停用词和在文档中出现次数为1的词。词干化和以字母顺序排序是可选的。对于这个快速教程来说，这样的示例已经做够好了。

问题描述：

当我们查询“gold silver truck”的时候，使用LSI去为这些documents进行排名。

步骤1：计算term weights并且生成term-document矩阵A和query矩阵

步骤2：分解矩阵A，得到U，S，V矩阵，公式是

你可以使用 Bluebit Matrix Calculator，或者 JavaScript SVD Calculator，或者 MathLab，或者 Scilab来分解这个矩阵。需要注意的是这些工具都有他们自己的学习曲线和鼓号规约。使用你喜欢的工具来计算A。举例来说，从Bluebit的输出我们能够看到：