SAKE:基于自注意力的图基关键短语提取方法
1. 引言
在自然语言处理(NLP)领域,从文档中提取相关关键词是一个长期存在的问题,其解决方案对文本摘要、信息检索、文本分类和推荐系统等常见 NLP 任务具有重要价值。近年来,关键词提取的研究主要集中在监督方法和无监督方法两个方向。
2. 相关工作
- 监督方法 :将关键词提取视为二元分类问题,例如 GenEx 和 KEA。它们将短语在目标文档中的频率和位置视为最重要的特征,并成为后续方法的基线系统。
- 无监督方法 :将关键词提取视为重要性排序问题,包括基于统计的方法(如 TF - IDF、KP - MINER、RAKE 等)和基于图的排序方法(如 TextRank、SingleRank、TopicalRank 和 PositionalRank 等)。基于图的方法将文本中的预处理单词作为节点,单词之间的关系作为边,构建网络图并评估每个节点的重要性,最后选择排名靠前的节点所代表的单词作为关键词。
- 预训练模型方法 :近年来,使用自监督学习方法的预训练模型在许多 NLP 任务中取得了最佳效果。例如,Wang 等人使用预训练的词嵌入和每个单词的频率来生成文档中单词之间的加权边,并使用加权 PageRank 算法计算单词的最终得分。
本文提出了一种新的无监督方法 SAKE,旨在利用单词的吸引力得分构建词图,然后使用加权 PageRank 算法计算单词的最终得分。
3. 算法
SAKE 的主要目的
超级会员免费看
订阅专栏 解锁全文
32

被折叠的 条评论
为什么被折叠?



