Unsupervised Keyphrase Extraction via Interpretable Neural Networks 阅读笔记
论文简单介绍
- 题目
Unsupervised Keyphrase Extraction via Interpretable Neural Networks - 作者
Rishabh Joshi Vidhisha Balachandran Emily Saldanha - 单位
Language Technologies Institute, Carnegie Mellon University,Pacific Northwest National Laboratory - 时间
2022 - 期刊
arXiv
动机
- 以前的无监督方法主要是通过嵌入相似性或图中心性来求助于短语重要性的启发式概念,需要广泛的领域专业知识来开发它们,这就会导致泛化性不好,不能处理新词发现
- 作者从另一个角度看关键词抽取:对预测文本主题最有用的短语是重要的关键短语
- 具体从下图展示出来。文档中的文本通常涵盖有关多个主题的内容。 一套全面的关键词,应该突出所有主要主题的重要短语。

模型
作者提出了INSPECT模型,用来在长文本中抽取关键词。假设神经文本分类器潜在地利用重要的关键词来预测文本中的主题,INSPECT 通过解释分类决策来提取关键词
因此模型主要分成两个部分,Base Interpretable Model和Kyphrase Relevance Model。如下图所示

- 首先是常规的分词和词性标注,然后通过词性规则筛选出候选关键词
- 他这里处理长文本的方法是将长文本分段送进去
RoBERTa里面进行嵌入学习 - 局部可解释层主要采用一个激活差异函数。这块自己也没有弄清楚
该文后续再更新,目前只是简单粗略看一遍,没有深究细节
我的思考
- 这个可解释性主要是说一个文章应该有多个主题,然后抽取的候选关键词应该包括每一个主题,这个感觉还是主题聚类的东西。他只是换了一个说法而已
无监督关键词抽取:可解释神经网络方法
本文介绍了Unsupervised Keyphrase Extraction via Interpretable Neural Networks,由卡内基梅隆大学和太平洋西北国家实验室的研究人员提出。该模型(INSPECT)通过解释文本分类器的决策来抽取关键词,以捕捉文档中的多种主题。模型包含两部分:基础可解释模型和关键词相关性模型。它旨在克服传统无监督方法的局限性,如领域依赖和新词处理问题。该工作为关键词抽取提供了新的视角,强调了预测文本主题的重要性。
1265

被折叠的 条评论
为什么被折叠?



