5、文本挖掘中的姓名处理：新前沿

最新推荐文章于 2025-10-01 15:39:08 发布

peach

最新推荐文章于 2025-10-01 15:39:08 发布

阅读量43

点赞数

CC 4.0 BY-SA版权

分类专栏：情报与安全信息学：跨学科的探索与应用文章标签：文本挖掘姓名处理命名实体提取

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/peach/article/details/149890294

情报与安全信息学：跨学科的探索与应用专栏收录该内容

45 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

文本挖掘中的姓名处理：新前沿

在文本挖掘领域，姓名处理是一个具有挑战性但又至关重要的任务。它涉及到从文本中提取姓名、确定姓名之间的共指关系、进行姓名匹配以及利用姓名信息进行可视化、关联分析和欺骗检测等多个方面。

姓名搜索技术

在姓名搜索方面，有基于语言原则的相似度算法，用于确定查询字符串和条目标题之间的相似度。该算法会计算相关参数和阈值，返回的结果会按照相似度排名。这种方法在处理从口头来源获取的姓名条目时特别有效，例如电话交谈中的姓名。此外，还有 NameGenderizer 模块，它能根据姓名被分配给男性或女性的频率，返回给定姓名最可能的性别。

命名实体提取

命名实体识别和提取的任务是识别文本中代表人物、组织和地点名称的字符串。这项工作始于 20 世纪 80 年代中期的消息理解会议（MUC）。早期的命名实体提取系统大多基于手工构建的模式，这些模式能识别文本中的各种特征和结构，在处理英语报纸文章时取得了很高的准确率和召回率，分别达到 97% 和 96%。然而，这些系统存在局限性，它们仅在固定领域的英语报纸文章上进行训练，对于其他文本来源的适用性存疑，并且开发和维护规则集需要专业人员，劳动强度大。

近年来，许多工作转向了统计/概率方法。一些系统在某些情况下取得了很好的效果，F 测度得分超过 94%，即使是利用标点符号、字典查找和词性标注器等计算成本较低的来源获取信息的系统也是如此。通过在手工构建系统标记的输出上训练系统，得分可以提高到超过 97%，超过了仅使用手工构建系统的得分，甚至可与人类标注者的得分相媲美。这些结果表明，命名实体提取可有效应用于更大的任务，如关系检测和关联分析。

文档内和跨文档共指

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。