python自然语言处理实战 核心技术与算法

本文深入探讨了中文分词技术,包括规则分词与统计分词两大类。详细讲解了正向最大匹配、逆向最大匹配及双向最大匹配等规则分词方法,以及基于HMM和CRF的统计学模型在分词中的应用。通过建立n-gram语言模型,实现对中文句子的高效准确切分。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

涂铭

3 中文分词技术

3.2 规则分词

3.2.1 正向最大匹配方法 maximum match method MM法
3.2.2 逆向最大匹配方法 reverse maximum match method RMM法

中文偏正结构很多

3.2.1 双向最大匹配方法 bi-direction matching method

3.3 统计分词

建立语言模型
对句子进行单词划分,然后对划分结果进行概率计算,获得概率最大的分词方式。
统计学模型:

  • 隐含马尔可夫HMM
  • 条件随机场CRF
3.3.1 语言模型

n-gram model:在估算条件概率时,忽略距离大于等于n的上文词的影响

  • 一元模型 unigram model
  • 二元模型 bigram model
  • 三元模型 trigram model 词序信息 计算成本
3.3.2 HMM模型
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值