Importance Estimation from Multiple Perspectives for Keyphrase Extraction阅读笔记

最新推荐文章于 2025-12-16 10:44:31 发布

原创最新推荐文章于 2025-12-16 10:44:31 发布 · 998 阅读

CC 4.0 BY-SA版权

文章标签：

10 篇文章

订阅专栏

这篇论文探讨了关键短语抽取中的重要性评估方法，提出从句法准确性、信息显著性和概念一致性三个维度综合考虑。模型利用RoBERTa编码和CNN生成候选词，并通过softmax、成对学习和概念一致性评估进行关键词排序。实验指出n-gram方法带来的大量候选词挑战，但有助于发现更多潜在重要词。

关键词抽取的经典步骤为：候选关键词生成，候选关键词重要性评估。从人类理解文档的角度来看，我们通常同时根据其句法准确性、信息显著性和概念一致性来衡量短语的重要性。但是以前的方法，最多只从两个角度评估候选词的重要性。

在这里插入图片描述

模型主要分为候选单词抽取和关键词重要性评估两大块

在这里插入图片描述

在这里插入图片描述

如图所示，使用一个softmax函数进行评估句法准确性，损失函数采用二进制交叉熵函数，其中 $y_i$ 是原始文档中出现该候选词

利用成对学习方法对候选关键词进行全局排序，以比较所有候选关键词之间的信息显著性

在这里插入图片描述

在这里 $I_2(.)$ 代表的是对信息的显著性估计，这样就会使得模型优先选择正样例集合 $p^+$ 中的候选词

具体来说，第i个n-gram的表示 $c_i^n$ 可以用上图所示的公式6所示，其中 $W_2$ 是一个可训练的矩阵， $b_2$ 是一个偏置。作者说通过显著性排序模块就可以筛选出具有高显著性的候选关键词

一堆公式，高斯分布和潜在变量啥的。感觉公式多，复杂，参数多对于顶会有加成。

这里面公式太多了，我不太理解，大意就是一个文档会有多个主题，候选词应该与其中某一个或多个主题有高度一致性

只要有了文本和候选词的潜在向量表示z和 $z_i^n$ ，那么就可以用下图的公式来评估候选词和文档的一致性

在这里插入图片描述

在公式7中 $W_3$ 是一个学习到的映射矩阵。损失函数用公式8表示，它会使得模型对候选关键词进行文档一致性评估

在这里插入图片描述

在候选关键词生成时使用n-gram方法，这种方法会使得候选的词数量非常大，与传统的词性规则相比就不是一个量级。假设一般短文本有500个单词，那么bigrams=500 * 500 = 2500,trigrams = 500 * 500 * 500,4-grams = 500 * 500 * 500 * 500。而传统的词性规则过滤后最多只有100个词左右，这完全就不是一个量级。n-grams方法产生的噪音实在是太多了。
使用n-gram的好处就是增大了各种可能性，传统的词性规则筛选采用的是最大匹配，这就会导致很多候选词压根没有机会。这也会导致由于分词原始造成的指标损失
想要中顶会，公式越多越复杂越好。。。。
感觉一致性那块另一种方式就是主题建模，区别感觉不大。
其实我真的好奇它在于语义多样性那一块是怎么处理的，毕竟n-gram真的会生成太多的高度相似的单词。