数学之美 第4章 谈谈中文分词

本文介绍了中文分词技术的发展历程,包括最早的查字典方法及其局限性,以及后来采用的统计方法——维特比算法。此外,还探讨了工程实践中分词的一致性和颗粒度等问题。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

数学之美  第4章  谈谈中文分词

我们直接进入主题吧!

中文分词的演变:

1.  第一个中文分词就是  “查字典”方法,就是把句子从左到右顺序扫描一遍,遇到字典里的词就标示出来,遇到复合型词汇就采用最长匹配原则,遇到不认识或者无法分得词汇呢就采用 单字词的模式,这样基本上也覆盖了七八成的中文分词结果了。  唯一的缺点:遇到二义性也就是歧义性的词汇是就无能为力了。

2. 采用统计的方法:笨点的方法就是我们把一个句子可能性的几种情况全部列出来,然后根据语料库中的前后词汇关系统计概率,看看哪种句子存在的可能性最大就是哪种分法,但是这种方法无异于穷举,最终会浪费很多的时间啊。所以我们采用   动态规划来逐步的合成概率的句子:这种方法叫做  维特比算法。

2  延伸阅读:工程上的细节问题


2.1 分词的一致性及词的颗粒度和层次

就是具体问题具体分析  比如说”清华大学“,如果是在机器翻译中,就要颗粒度越大越好”清华大学“,如果是在网页搜索的话,颗粒度越小越好的”清华“  ”大学“这样子,一般情况我们都是  建立两个表 ”
一个是   基本词表(颗粒度小的)
一个 是  复合词的词表 (颗粒度大的)


2.2  分词的不一致性

分词的不一致性 分为  两种  :错误  和  颗粒度不一致

错误:分为  一类:越界型错误   比如说 ‘北京大学生’ 分成 ‘北京大学    生’
           另外  一类:覆盖型错误 比如说“贾里尼克”被拆成了“贾     里      尼      克”四个字
所以我们编程的时候尽量保持  分词的一致性比较好,当然他也不能被看成是一种错误的。


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值