语义相似度与相关性的深入解析
1. 引言
语义相似度是自然语言处理领域的核心任务之一,旨在找出并量化文本单元(如词对、句子对或文档对)之间语义联系的强度。它在众多应用中发挥着关键作用,包括信息检索、查询改写、图像检索、抄袭检测、信息流分析、赞助搜索、简答题评分和文本蕴含等。
例如,我们可能想判断“car”和“automobile”,或者“noon”和“string”之间的语义关联程度。同样,对于像“I love animals”和“I own a pet”这样的文本片段,我们也希望评估它们的相关性。通常,我们会依据积累的知识和经验,运用概念思维、抽象和概括能力来做出判断。
语义相关性和语义相似度有所不同。相似度是一个更具体的概念,通常涉及因相似性而相关的实体,且常局限于词性边界内,如“bank” - “trust company”;而不相似的实体也可能存在关联,如“hot” - “cold”,“hiking” - “mountain”,“food” - “sea”。
2. 词语的语义相似度与相关性
文献中提出了大量的词与词相似度度量方法,本文重点关注四种基于语料库的度量方法和六种基于知识的度量方法。
2.1 基于语料库的度量方法
- 点互信息(PMI - IR) :这是一种无监督的词语语义相似度评估方法,基于大语料库中的词共现信息。给定两个词 (w_1) 和 (w_2),其 PMI - IR 计算公式为:
[PMI - IR(w_1, w_2) = \log\frac{p(w_1 \& w_2)}{p(w_1)p(w_2)}]
超级会员免费看
订阅专栏 解锁全文
749

被折叠的 条评论
为什么被折叠?



