潜在语义分析(LSA):原理、证据与应用
1. LSA学习模型
LSA基于组合性约束,即文档的意义是其单词意义的总和,而单词的意义由其出现(和未出现)的所有上下文定义。通过使用奇异值分解(SVD)来求解一组代表文本集合内容的线性方程组,可得到一个高维语义空间,其中每个术语和文档都由向量映射。这种表示技术利用了许多单词在许多上下文中出现的相互约束,从而能根据单词和上下文在映射空间中的位置观察它们之间的相似性。
LSA学习系统不仅能自动学习单词和上下文的意义,还能作为人类学习过程的计算模型。但需注意,LSA仅使用给定的输入文本,可能无法涵盖所有人类知识。这部分是由于训练语料库不足以代表普通人的语言经验。LSA仅通过文本分析来推导单词和上下文的意义,而非依靠感知信息、本能或情感等。不过,它能通过书面文字获取相关知识,并对人们的知识进行近似表示。
1.1 维度选择
LSA空间形成的一个重要因素是维度的选择。LSA使用截断的SVD,即对术语 - 文档矩阵A进行k秩近似。这种降维有助于去除原始表示中的噪声。维度数量k的选择至关重要,维度过少会遗漏数据中的重要潜在概念,而维度过多会导致项目间过度区分,难以找到重要的语义关系。理论认为,将维度数量减少到少于初始上下文或单词数量,能产生与人类认知中相似的近似关系。理想情况下,选择合适的LSA维度能产生与人类语义空间维度相似的表示。LSA语义空间的高维度是关键,它模仿了大脑结构和经验的统计结构。
1.2 正交轴
SVD计算的产物之一是一组正交轴,它们是语义空间的映射维度。术语和文档的意义源于在这些轴上的映射,但它们并不定义这些轴。语义空间中的维度轴是抽象特征,是向量空间的基础框架,而
超级会员免费看
订阅专栏 解锁全文
33

被折叠的 条评论
为什么被折叠?



