新闻文章分类与专利审查研究:多模态特征与眼动追踪的应用
在信息爆炸的时代,新闻文章的分类和专利审查的效率成为了重要的研究课题。本文将介绍新闻文章使用随机森林和加权多模态特征进行分类的方法,以及利用眼动追踪技术研究专利审查员信息搜索过程的相关内容。
新闻文章特征提取
新闻文章通常包含文本描述和图像两部分。为了对新闻文章进行分类,需要从这两部分中提取特征。
文本特征提取
- 去除停用词 :删除英文通用文本中的421个停用词。
- 生成N - 元组 :创建所有可能的连续N - 元组(N = 1, 2, 3, 4),要求这些词在同一句子中。
- 统计频率 :统计每个N - 元组特征在语料库中的频率。
- 排序与选择 :对一元组、二元组、三元组和四元组特征分别按降序排序,选择最频繁的特征子集,具体为100个最频繁的一元组、50个最频繁的二元组、30个最频繁的三元组和15个最频繁的四元组。
N - 元组类型 | 选择数量 |
---|---|
一元组 | 100 |
二元组 | 50 |
三元组 |