16、中文分词算法:从机械匹配到统计语言模型及分层隐马尔可夫模型

中文分词算法:从机械匹配到统计语言模型及分层隐马尔可夫模型

一、机械匹配与N - 最短路径方法

在中文信息处理中,简单使用机械匹配方法进行中文分词存在一定的局限性。基于机械匹配分词,利用各种语言信息进行歧义校正,是突破机械匹配方法局限性的重要手段。

N - 最短路径方法是对最短路径方法的改进。其基本思想是,基于现有的词典,将每个句子分解为一个加权有向无环图。图中每个字符代表一个节点,边代表可能的分词,边的起点是词的第一个字符,终点是词末尾的下一个字符。这里用词的频率来表示边的权重,最终结果是在上述加权有向无环图中找到权重总和最大的N条路径。

模型建立步骤如下:
假设字符串S = c1, c2, …, cn,其中ci(i = 1, 2, …, n)为单个字符,S的长度为n(n > 1)。建立一个具有n + 1个节点的有向无环图G,节点编号依次为V0, V1, V2, …, Vn。
G的所有可能的分词边通过以下两个步骤建立:
1. 在相邻节点Vk和Vk + 1之间建立有向边 ,该边对应的词默认为ck(k = < Vi step 1 j2i1,cj(0 < i ≤ j)是一个词);然后在节点Vi - 1和Vj之间建立有向边。
2. 假设词是相互独立的,引入词ai的出现概率P(ai),得到基于N - 最短路径方法的一元统计模型。根据大数定律,当样本数据量很大时,样本的频率接近其概率值,所以所有P(ai)的最大似然估计等于词频。

根据文献中公式的推导,最终得到边长度公式。

二、基于统计语言模型的中文分词算法
(一)词典分词法的优缺点

基于词典的分

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值