9、新闻文章分类与专利审查研究:多模态特征与眼动追踪的应用

新闻文章分类与专利审查研究:多模态特征与眼动追踪的应用

在信息爆炸的时代,新闻文章的分类和专利审查的效率成为了重要的研究课题。本文将介绍新闻文章使用随机森林和加权多模态特征进行分类的方法,以及利用眼动追踪技术研究专利审查员信息搜索过程的相关内容。

新闻文章特征提取

新闻文章通常包含文本描述和图像两部分。为了对新闻文章进行分类,需要从这两部分中提取特征。

文本特征提取
  • 去除停用词 :删除英文通用文本中的421个停用词。
  • 生成N - 元组 :创建所有可能的连续N - 元组(N = 1, 2, 3, 4),要求这些词在同一句子中。
  • 统计频率 :统计每个N - 元组特征在语料库中的频率。
  • 排序与选择 :对一元组、二元组、三元组和四元组特征分别按降序排序,选择最频繁的特征子集,具体为100个最频繁的一元组、50个最频繁的二元组、30个最频繁的三元组和15个最频繁的四元组。
N - 元组类型 选择数量
一元组 100
二元组 50
三元组
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值