中文分词技术

第三章 中文分词技术

3.1中文分词简介

中文分词的主要困难在于分词歧义,此外,像未登录词、分词粒度粗细等都是影响分词效果的重要因素。
中文分词方法可主要归纳为“规则分析”、“统计分词”和“混合分词(规则+统计)”三个主要流派。规则分词是最早兴起的方法,主要通过人工设立词库,按照一定方式进行匹配切分,其实现简单高效,但对新词很难进行处理。随后统计机器学习技术的兴起,应用于分词任务后,就有了统计分词,能够较好地应对新词发现等特殊场景。然而实践中,单纯的统计分词也有缺陷,那就是太过于依赖语料的质量,因此实践中多采用这两种方法的结合,即混合分词。

3.2规则分词

基于规则的分词是一种机械分词方法,主要是通过维护词典,在切分语句时,将语句的每个字符串与词表中的词进行逐一匹配,找到则切分,否则不予切分。
按照匹配切分的方式,主要有正向最大匹配法、逆向最大匹配法、双向最大匹配法

3.3统计分词

主要思想是:把每个词看做是由词的最小单位的各个字组成的,如果相连的字在不同的文本中出现的次数越多,就证明这相连的字很可能就是一个词。因此可以利用字与字相邻出现的频率来反映成词的可靠性,统计语料中相邻共现的各个字的组合的频率,当组合频率高于一个临界值时,便认为该组合可能会构成一个词语。
两个步骤:(1)建立统计语言模型;(2)对句子进行单词划分,然后对划分结果进行概率计算,获得概率最大的分词方式(eg.HMM,CRF)

3.3混合分词

无论是基于规则的算法还是基于HMM、CRF或者deep learning等的方法,其分词效果在具体任务中,差距并不明显。在实际工程应用中,多是基于一种分词算法,然后用其他分词算法加以辅助。最常用的方式先基于词典的方式进行分词,然后再用统计分词方法进行辅助。

3.4jieba

jieba分词结合了基于规则和基于统计这两类方法。三种分词模式:
*精确模式:试图将句子最精确地切开,适合文本分析。jieba.cut(sent,cut_all=True)
*全模式:把句子中所有可能成词的词语都扫描出来,速度非常快,但是不能解决歧义。jieba.cut(sent,cut_all=False)
*搜索引擎模式:在精确模式的基础上,对长词再次切分,提高召回率,适用于搜索引擎分词。jieba.cut_for_search(sent)

4.2命名实体识别

NER研究的命名实体一般分为3大类(实体类、时间类、数字类)和7小类(人名、地名、组织机构名、时间、日期、货币和百分比)。
(1)基于规则的命名实体识别:规则加词典是早期命名实体识别中最行之有效的方式。其依赖手工规则的系统,结合命名实体库,对每条规则进行权重赋值,然后通过实体与规则的相符情况来进行类型判断。
(2)基于统计的命名实体识别:基于人工标注的语料,将命名实体识别任务作为序列标注问题来解决。
(3)混合方法:基于统计方法,借助规则知识提前进行过滤修剪处理。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值