自然语言处理-命名实体识别的预料优化

本文讲述了对https://github.com/Determined22/zh-NER-TF的命名实体识别语料进行优化,解决了人物标注仅包含姓氏的问题。通过修正约800处标注,将称谓纳入识别,显著提升了识别效果。提供修改后的语料下载链接,以回馈开源社区。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

本文主要是针对https://github.com/Determined22/zh-NER-TF 这个开源工程中的一个ner语料进行优化
在这里插入图片描述
非常标准的命名实体识别语料,语料的质量也是非常的高。
但是有个小问题
语料对于人物的标注,有非常多带称谓的人物只标注的姓
导致识别到非常多单字的姓效果非常差。
例如张女士、和张师傅识别结果都是张、张。
但我认为称谓也应该附带上
这边我花了两天时间,对语料中大约八百处标注进行了修改
原始语料
在这里插入图片描述在这里插入图片描述
修改之后
在这里插入图片描述
在这里插入图片描述
识别结果对比
语料修改之前的识别效果
在这里插入图片描述

修改之后的重新训练的识别结果
在这里插入图片描述
可以看到效果非常的显著

最后非常感谢大佬开源的工程,现也将语料公开
csdn下载链接

github
如果对你有用欢迎star一下

最后还是非常感谢大佬开源的项目
https://github.com/cycz/nerData/blob/master/README.md

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值