5、文本挖掘中的姓名处理:新前沿

文本挖掘中的姓名处理:新前沿

在文本挖掘领域,姓名处理是一个具有挑战性但又至关重要的任务。它涉及到从文本中提取姓名、确定姓名之间的共指关系、进行姓名匹配以及利用姓名信息进行可视化、关联分析和欺骗检测等多个方面。

姓名搜索技术

在姓名搜索方面,有基于语言原则的相似度算法,用于确定查询字符串和条目标题之间的相似度。该算法会计算相关参数和阈值,返回的结果会按照相似度排名。这种方法在处理从口头来源获取的姓名条目时特别有效,例如电话交谈中的姓名。此外,还有 NameGenderizer 模块,它能根据姓名被分配给男性或女性的频率,返回给定姓名最可能的性别。

命名实体提取

命名实体识别和提取的任务是识别文本中代表人物、组织和地点名称的字符串。这项工作始于 20 世纪 80 年代中期的消息理解会议(MUC)。早期的命名实体提取系统大多基于手工构建的模式,这些模式能识别文本中的各种特征和结构,在处理英语报纸文章时取得了很高的准确率和召回率,分别达到 97% 和 96%。然而,这些系统存在局限性,它们仅在固定领域的英语报纸文章上进行训练,对于其他文本来源的适用性存疑,并且开发和维护规则集需要专业人员,劳动强度大。

近年来,许多工作转向了统计/概率方法。一些系统在某些情况下取得了很好的效果,F 测度得分超过 94%,即使是利用标点符号、字典查找和词性标注器等计算成本较低的来源获取信息的系统也是如此。通过在手工构建系统标记的输出上训练系统,得分可以提高到超过 97%,超过了仅使用手工构建系统的得分,甚至可与人类标注者的得分相媲美。这些结果表明,命名实体提取可有效应用于更大的任务,如关系检测和关联分析。

文档内和跨文档共指
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值