富背景知识主题模型的人类感知研究
1. 引言
在计算机科学领域,主题建模和文本分类都是经过深入研究的成熟领域。传统上,这两种技术都基于词袋(BOW)文档表示法,即一个特征对应一个词(词干或词元),只考虑词的频率,而不考虑词序。随着研究的发展,经典的文档分类系统性能提升遇到瓶颈,研究者们开始探索不同的方法,其中很自然的想法就是改进文档表示方法。
一些早期的研究为文本分类进行了特征向量工程,例如Scott和Matwin使用英文词汇数据库WordNet将文档转换为特征向量。近期的研究也在特征工程步骤中引入语义信息,并应用机器学习技术进行文本分类。
受这些研究的启发,我们在主题建模中进行特征工程,将传统的词袋方法扩展为新的特征袋方法。我们不仅考虑单词,还考虑与DBpedia资源链接的消歧命名实体以及相关实体。我们的假设是,在主题相关的文档中,实体及其类型、上位词或对应维基百科文章的类别应该有重叠,这些术语的频率总和在发现的主题中应该更有意义。
例如,一篇关于政治的文章中,“政治”这个词可能没有出现,但通过命名实体识别和消歧,像“巴拉克·奥巴马”和“安格拉·默克尔”这样的实体可以被识别为政治家,从而提升相关主题的相关性。
我们的工作重点是主题建模的特征工程方面,保持底层的生成统计模型不变,并通过检查主题的内部连贯性和主题 - 文档分配的人类可理解性来评估这种方法的质量。
2. 相关工作
与基于纯单词的LDA算法及其变体(如不同的采样技术或在线学习)相比,使用丰富特征向量的主题建模方法目前研究较少。
Newman等人提出了五种新模型,通过修改LDA来学习纯实体 - 主题模型,并对实体预测进
超级会员免费看
订阅专栏 解锁全文
3102

被折叠的 条评论
为什么被折叠?



