NLP规则分词实验——Python版

NLP规则分词实验报告

完成日期:2018.11.03
GitHub:https://github.com/fyinh/NLPLearning_MM_RMM_segment
Java版:https://blog.youkuaiyun.com/fyinh_/article/details/88890515


一、摘要

  作为自然语言处理的分支,中文信息处理是指用计算机对中文进行处理,和大部分西方语言不同,书面汉语的词语之间没有明显的空格标记,句子是以字串的形式出现。因此对中文进行处理的第一步就是进行中文自动分词。中文分词是中文自然语言处理的一项基础性工作,也是中文信息处理的一个重要问题,只有不断提高中文分词算法的效率才能跟上信息爆炸增长的现状。因此本文将进行使用双向匹配算法对给定测试文本进行分词的实验,并就此算法构建一个小软件以供用户进行方便快捷的中文分词。

二、理论描述

  中文分词是指把没有明显分界标志的字串自动切分为词串。包括标点符号、数字、数学符号、各种标记、人名、地名、机构名等未登录词的识别。因此中文分词主要包括下面两个步骤:首先根据分词规范,建立机器词典,然后根据分词算法和机器词典,把字串切分成词串。目前根据所使用的知识资源不同分为基于规则的方法,基于统计的方法,以及两者结合的方法。
  基于规则的方法一般都需要事先有人工建立好的分词词典和分词规则库。主要是基于字符串匹配的原理进行分词,往往以足够大的词表为依据,采用一定的处理策略将中文文本的字符串与词表中的词逐一匹配,如若成功,就认为该字串为词。主要有正向最大匹配法、逆向最大匹配法、双向匹配法、逐词遍历匹配法、设立切分标志法、正向最佳匹配法和逆向最佳匹配法等。而本次实验使用的方法就是双向匹配法。

三、算法描述

  1. 正向匹配算法(MM):设MaxLen表示最大词长,D为分词词典
    (1)从待切分语料中按正向取长度为MaxLen的字串str,令Len=MaxLen;
    (2)把str与D中的词相匹配;
    (3)若匹配成功,则认为该字串为词,指向待切分语料的指针向前移Len个汉字(字节),返回(1);
    (4)若不成功:如果Len>1, 则将Len减2,从待切分语料中取长度为Len的字串str,返回(2)。否则,得到长度为2的单字词,指向待切分语料的指针向前移1个汉字,返回(1)。

  2. 逆向最大匹配法(RMM):设MaxLen表示最大词长,D为分词词典
    (1)从待切分语料中按逆向取长度为MaxLen的字串str,令Len=MaxLen;
    (2)把str与D中的词相匹配;
    (3)若匹配成功,则认为该字串为词,指向待切分语料的指针向前移Len个汉字(字节),返回(1);
    (4)若不成功:如果Len>1, 则将Len减2,从待切分语料中取长度为Len的字串str,返回(2)。否则,得到长度为2的单字词,指向待切分语料的指针向前移1个汉字,返回(1)。

  3. 双向匹配法:
    对同一个字符串分别采用MM和RMM两种方法进行切分处理,如果能够得到相同的切分结果,则认为切分成功,否则认为有疑点。针对疑点,采用上下文信息,根据歧义规则库进行排歧或者进行人工干预,选取一种切分为正确的切分。
    本实验采用的是后面的方法,对于疑点进行人工干预。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值