文本挖掘中的姓名处理:新前沿
在文本挖掘领域,姓名处理是一个具有挑战性但又至关重要的任务。它涉及到从文本中提取姓名、确定姓名之间的共指关系、进行姓名匹配以及利用姓名信息进行可视化、关联分析和欺骗检测等多个方面。
姓名搜索技术
在姓名搜索方面,有基于语言原则的相似度算法,用于确定查询字符串和条目标题之间的相似度。该算法会计算相关参数和阈值,返回的结果会按照相似度排名。这种方法在处理从口头来源获取的姓名条目时特别有效,例如电话交谈中的姓名。此外,还有 NameGenderizer 模块,它能根据姓名被分配给男性或女性的频率,返回给定姓名最可能的性别。
命名实体提取
命名实体识别和提取的任务是识别文本中代表人物、组织和地点名称的字符串。这项工作始于 20 世纪 80 年代中期的消息理解会议(MUC)。早期的命名实体提取系统大多基于手工构建的模式,这些模式能识别文本中的各种特征和结构,在处理英语报纸文章时取得了很高的准确率和召回率,分别达到 97% 和 96%。然而,这些系统存在局限性,它们仅在固定领域的英语报纸文章上进行训练,对于其他文本来源的适用性存疑,并且开发和维护规则集需要专业人员,劳动强度大。
近年来,许多工作转向了统计/概率方法。一些系统在某些情况下取得了很好的效果,F 测度得分超过 94%,即使是利用标点符号、字典查找和词性标注器等计算成本较低的来源获取信息的系统也是如此。通过在手工构建系统标记的输出上训练系统,得分可以提高到超过 97%,超过了仅使用手工构建系统的得分,甚至可与人类标注者的得分相媲美。这些结果表明,命名实体提取可有效应用于更大的任务,如关系检测和关联分析。
超级会员免费看
订阅专栏 解锁全文
638

被折叠的 条评论
为什么被折叠?



