中文词性标注与语音识别错误纠正技术解析
中文词性标注
在中文自然语言处理中,词性标注是一项关键任务。与英文不同,中文词汇通常没有明显的形态特征,这使得直接将英文词性标注器移植到中文场景往往效果不佳。以往对中文未登录词(OOV)的研究大多聚焦于专有名词的识别,而现在的研究重点转向了中文复合词。
为了实现更准确的词性标注,采用了基于相似度的技术。该技术利用了词结构特征、原始文本中相邻词的信息以及搭配标记的语言提示。以下是基础词性标注器使用的附加特征:
| POS2L | POS1L | 目标词 | POS1R | POS2R | 基础词性标注器中的附加特征 |
| — | — | — | — | — | — |
| √ | √ | | | | PMI(POS2L, POS1L) |
| √ | √ | | | | PMI(POS1L, POS1R) |
| | | | √ | √ | PMI(POS1R, POS2R) |
在实验中,将通过该技术推断出的OOV的3个最佳词性标签输入到基础标注器中。研究仅对双音节复合词实施了基于相似度的技术,对三音节词保持不变,并且对专有名词没有进行特殊处理。实验结果表明,OOV词性标注的准确率提高了超过24%,同时对已登录词(IV)也有1.1%的提升效果,最终准确率达到了95.3%,而相关竞赛中封闭和开放赛道的当前最优水平分别为93.41%和93.40%。具体性能数据如下表所示:
| | 总数 | IV | OOV |
| — | — | — | — |
| 正确 | 88,290 (85,684) | 82,881 (81,891) | 5,409 (3,793) |
超级会员免费看
订阅专栏 解锁全文
1280

被折叠的 条评论
为什么被折叠?



