文本到文本语言模型的关键词提取与生成及氢终止金刚石表面特性研究
关键词提取与生成相关内容
在自然语言处理领域,关键词提取和生成(KEG)是一项重要任务。目前通常将现有关键词提取(PKE)和抽象关键词生成(AKG)视为两个独立任务,但实际上,为科学论文自动分配关键词的成功方法应兼具提取性和抽象性,因为作者会综合运用这两种特性来简洁描述文本主题和领域。而且,PKE和AKG的界限本身就比较模糊,有些关键词是文章正文中表达的名词化、释义或概括性变体。
KEG数据集概述
存在许多公开可用的KEG数据集,不同数据集在文档数量和大小(摘要/全文)、关键词分配的质量和类型(抽象/提取)、每篇文本的平均关键词数量以及不同关键词的总数等方面存在显著差异。以下是部分数据集的介绍:
| 数据集 | 类型 | 文档数量 | 单词数量 | 唯一单词数量 |
| ---- | ---- | ---- | ---- | ---- |
| NUS [12] | 全文 | 211 | 1824297 | 42568 |
| SemEval2010 [4] | 全文 | 244 | 2345689 | 53923 |
| Inspec [5] | 摘要 | 2000 | 287908 | 17653 |
| Krapivin [6] | 全文 | 2305 | 21858324 | 183976 |
| KP20k [10] | 摘要 | 570809 | 104349114 | 701706 |
| OAGKX [7] | 摘要 | 22674436 | 4237931192 | 18959687 |
| InTechOp
超级会员免费看
订阅专栏 解锁全文
665

被折叠的 条评论
为什么被折叠?



