基于LDA和LSA的语义相似度度量实验
1. 相关工作概述
短文本(如两个句子)之间的语义相似度任务有多种解决方案,涵盖从简单的词重叠到依赖词与词相似度度量的贪心方法、代数方法以及基于机器学习的解决方案。
1.1 LSA在语义相似度计算中的应用
Lintean等人(2010)研究了潜在语义分析(LSA)在解决释义识别任务中的作用。LSA是一种向量表示法,其中一个词在低维空间(300 - 500维或潜在概念)中表示为向量。计算两个词之间的相似度等同于计算相应LSA向量之间的余弦值(即归一化点积)。他们使用LSA以两种不同方式计算语义相似度:
- 词与词相似度结合贪心匹配 :将一个句子中的每个词与另一个句子中的一个词贪心配对,然后将这些词与词相似度的平均值作为两个句子的语义相似度得分。
- 直接计算句子相似度 :通过应用句子的LSA向量的余弦值(归一化点积)直接计算两个句子的相似度,句子的LSA向量通过将所有单个词向量相加得到。
1.2 LDA在语义相似度计算中的应用
- 问答任务中的应用 :Celikyilmaz等人(2010)使用LDA对问答(QA)中的候选答案进行排名。对于每个问题 - 答案对,他们生成一个LDA模型,用于计算相似度程度(DES),该程度由两个度量的乘积组成:sim1捕获答案和问题中存在的主题的词级相似度,sim2测量答案和问题中主题分布之间的相似度。
- 博客文本相似度计算 :Chen等人(2012)使用LDA计算
超级会员免费看
订阅专栏 解锁全文
1355

被折叠的 条评论
为什么被折叠?



