汉语自动分词小结

本文探讨了中文分词面临的问题,包括分词规范、歧义切分及未登录词处理等,并介绍了基于词表和统计的方法,重点分析了实体名词和专有名词的识别策略。
部署运行你感兴趣的模型镜像

中文分词存在的问题是分词规范(怎么才算是一个词)和歧义切分(交集型歧义:结合成且为结合|成、结|合成。组合型歧义:他站|起|身|来。他明天|起身|去北京。),以及未登录词,如中文名准确率较高,外文译名准确率很低,地名可以由词表解决,组织机构名词表可以解决部分。

分词方法总的分为基于词表基于统计和规则

正向最大匹配、逆向最大匹配法、双向扫描、逐词遍历法都是基于词表的。基于词表可以解决普通词汇分词问题,此外可以针对歧义切分,有N-最短路径(先基于词表粗分,由词构有向无环图,dijkstra贪心找最短路径,包含最优词序)、HMM隐马尔科夫(初始状态(词性)概率矩阵、状态转移矩阵(词性到词性)、从状态(词性)观察到输出符号(单词)的概率矩阵)、基于三元统计模型的分词、字构词。

未登录词有两类:新词或专业术语词(先词表,后人工)

实体名词和专有名词。这一类词的词次占8.7%,引起错误分词占59.2%,这类词是这机器翻译、信息检索、文本分类和信息提取的关键问题。主要专有名词问题和效果顺序:外国译名、中国人名、地名、组织机构名。解决方法:基于规则(专有名词库和人工归纳规则)和机器学习(基于HMM、最大熵、错误驱动)。

基于多特征的命名实体识别模型由词形上下文模型p(WC)、词性上下文模型P(TC)、实体词形模型、实体词性模型。

 

 

您可能感兴趣的与本文相关的镜像

Stable-Diffusion-3.5

Stable-Diffusion-3.5

图片生成
Stable-Diffusion

Stable Diffusion 3.5 (SD 3.5) 是由 Stability AI 推出的新一代文本到图像生成模型,相比 3.0 版本,它提升了图像质量、运行速度和硬件效率

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值