语义相似度与词汇获取在统计自然语言处理中的应用
1. 向量空间度量语义相似度
向量空间作为一种表示媒介,具有简单性的优势。在二维或三维空间中,向量很容易可视化,将相似度等同于向量指向同一方向的程度也同样直观。此外,向量空间度量易于计算。直观的简单性和计算效率可能是向量空间度量长期以来在信息检索中被使用的主要原因,特别是在词 - 文档矩阵中。
向量空间度量语义相似度的优点在于概念简单,并且能产生可直接用于泛化的相似度值。然而,它也存在不足,即缺乏对计算度量的清晰解释。
2. 概率度量语义相似度
2.1 向量空间度量的问题
基于向量空间的度量存在问题,除了余弦度量外,它们都基于二进制数据(是或否)。余弦度量是唯一能容纳定量信息的向量空间度量,但它也有自身的问题。计算余弦度量假设是欧几里得空间,因为余弦被定义为三角形两条边长度的比值,所以需要长度度量,即欧几里得度量。但如果处理的向量是概率或计数向量,欧几里得空间并不是一个合适的选择。例如,概率 0.0 和 0.1 之间的欧几里得距离与概率 0.9 和 1.0 之间的距离相同,但前者是不可能事件与十分之一机会事件的差异,而后者只有约 10% 的小差异。欧几里得距离适用于正态分布的量,而不适用于计数和概率。
2.2 条件概率矩阵
像图 8.3、8.4 和 8.5 中的计数矩阵可以通过将每行中的每个元素除以该行所有条目的总和,轻松转换为条件概率矩阵(这相当于使用最大似然估计)。例如,在图 8.5 的矩阵中,(American, astronaut) 的条目将转换为 0.5。这样,语义相似度问题就可以重新表述为两个概率分布的相似度(或不相似度)问题。
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



