基于新句子相似度度量的多文档摘要及常识知识在故事生成中的应用
基于新句子相似度度量的多文档摘要
在多文档摘要领域,句子相似度的度量至关重要。传统方法在衡量句子相似度时,往往存在一些局限性。本文提出了基于新句子相似度度量的方法,旨在提高多文档摘要的性能。
相关工作
- 图基排序算法 :像TextRank和LexPageRank这类著名的图基排序算法,已成功应用于文档摘要领域。它们在加权图上执行PageRank算法,图的顶点是句子,加权边表示两个句子的相关性,这种相关性通过余弦度量获得。
- 其他方法 :还有一些方法,如使用归一化谷歌距离来衡量句子间的差异,然后进行句子聚类以实现自动文本摘要;基于词集和词序的句子相似度被证明比其他方法性能更好;基于TF - IDF的句子相似度在准确率、召回率和F值方面表现较低;也有工作考虑了句子中隐含的语义信息和词序信息。
基于LDA的新词相似度算法
Latent Dirichlet Allocation(LDA)是一种潜在主题模型,它通过利用词共现来捕捉词之间的语义关系。共现在相同上下文中的词会被投影到相同的潜在主题,而出现在不同上下文中的词会被投影到不同的潜在主题。本文提出,分配到相同潜在主题的词的相似度值在0到1之间,具体值可通过计算它们在潜在主题上分布的Kullback - Leibler(KL)散度来确定。
根据贝叶斯规则,在文档D中,给定一个词$w_v$时特定主题$z_k$的概率为:
$P(z_k|w_v, D) = \frac{P(w_v|z