基于知识与文本的多标签文本分类及谣言检测研究
1. 多标签文本分类的挑战与新方法
多标签文本分类是将文本文件组织到多个非互斥类别的预测性数据挖掘任务。传统的多标签文本分类器面临特征空间高维、标签不平衡和训练开销大等问题。传统方法通常需要大量的特征工程和语言分析,且在特征选择上缺乏明确规则,依赖专家知识。同时,传统分类器对频繁标签表现较好,处理数百万实例的数据集时,构建和更新分类器既繁琐又耗时。
为解决这些问题,研究人员提出了一种基于知识和词嵌入的少训练多标签文本分类方法。该方法将分类问题转化为图匹配问题,以本体作为分类器,无需预训练分类器。分类过程基于测量代表标签的本体与文档中主题的相似度,整体性能在 F1macro 指标上优于基线,且对不平衡数据集的敏感度较低。
2. 多标签文本分类的具体方法
- 领域本体构建
- 领域本体由描述领域的概念及概念间的不同关系组成。为构建全面的本体,研究人员结合了 WordNet、YAGO 和 ConceptNet 等现有词汇数据库构建基础本体。
- 从 WordNet 中提取的语义关系包括部分 - 整体关系、物质 - 整体关系、同义词和上下位关系;从 ConceptNet 和 Yago 中提取的语义关系包括上下位关系、派生关系、形式关系、拥有关系、部分关系、方式关系和同义词。
- 利用 Hearst 词汇 - 句法模式从文档语料中提取额外的分类关系,并从 Wikipedia 中爬取新的语义关系,保留出现至少 3 次的关系以保证提取关系的高精度。
<
超级会员免费看
订阅专栏 解锁全文
27

被折叠的 条评论
为什么被折叠?



