分词的算法
分词算法采用的是最大匹配算法,按从左至右正向最大匹配和从右到左反向最大匹配,当两种分词结果不一致时,按最少切分原则,取切分词数最少的一种,如果两种分词结果切分的词数一样,取反向最大匹配作为分词的结果,这种分词的结果准确率在99%以上,可以满足一般的应用和需求。
建立一个字典,字典由多个子字典组成,每个子字典的单词字数相同且已经排序,以独立文件的形式存储于磁盘,字典支持新单词的导入。对于要一段文字,首先过滤一次,把源文件按标点、英文字母、数字、其它符号分解成一个List,list中若包含中文的为要分词的最小单位,如:你好,你是哪的ABC人,过滤的结果为 你好/,/你是哪的/ABC/人,要切分的部分有 你好 你是哪的 人 三部分,然后按分词算法对这三个部分切分。
识的新词, 一般都按单字处理。对运用逆向最大匹配法切分结
果的大量统计表明,在切分的结果中, 90% 的新词是以单字形
式出现, 9. 6% 的新词出现在中文分词切分歧义的位置, 因此,
如果处理完单字和分词歧义位置的新词, 即可囊括 99. 6% 的
新词。基于以上统计,可以在以分词结果中用单个字向左和右
“ 砌” 的方法来寻找新词。
<<对互联网环境下中文分词系统的一种架构改进>>
为了提高效率, 可以把一些高频出现的、 一般不可能与其他词构成新词的单字列入停用字表,不纳入考察范围。。在测试过程中, 将“ 的” 、 “ 了” 、 “ 在” 、 “ 是” 、 “ 个” 、 “ 上” 、 “ 有” 、 “ 里” 、“ 被” 、 “ 和” 、 “ 从” “ 会” 、 “ 就” 、 “ 不” 、 “ 着” 、 “ 为” 、 “ 或” 、“ 也” 、 “ 种” 、 “ 一” 等20 个高频一般不会成新词的字作为停用字, 进一步提高了学词的效率和准确度。
先查询专用词典(人名,部分地名等),将专有名称切出,剩下的部分采取双向分词策略,如果两者(正向最大匹配,反向最大匹配)切分结果相同,说明没有歧义,直接输出分词结果。
如果不一致,则输出最短路径的那个结果,也就是切分的片断越少越好,比如<古巴,比,伦理>和<古巴比伦,理>相比选择后者,<北京,华,烟云>和<北,京华烟云>相比选择后者。
如果长度相同,则选择单字词少的那一组切分结果。“遥远古古巴比伦”,这个查询被百度切分为<遥远,古古,巴比伦>,而不是切分为”遥/远古/古巴比伦”
如果单字也相同,则选择正向分词结果。
<<中文分词十年回顾>>
以看到, 在所有语料库中9 0%的词次是1 一2 字词,
9 5%的词次是3字或3字以下词, ”99%以上的词次
都是5 字或5 字以下词。因此, 使用宽度为5 个字
的上下文窗口足以覆盖真实文本中绝大多数的构词
情形。
在大规模真实文本中未登录词造成的分词精度失落
比歧义切分造成的精度失落至少大5 倍以上② 是可信的。
<<汉语自动分词研究评述>>
最大匹配法的错误切分率为1次/169字~1次/245字。
百分之九十的句子前向最大匹配(MM)和逆向最大匹配(RMM)结果一致,百分之九的句子两种算法有一个正确。
《中文分词关键技术研究与实现》
复旦大学研制的复旦分词系统由四个模块构成:预处理模块(利用隐式标记将
文本分割成较短的汉字串);歧义识别模块(正向最小匹配和逆向最大匹配进行双向
扫描);歧义字段处理模块(利用构词规则和词频统计信息来消除歧义);未登录词
识别模块(解决未登录词造成的分词错误)。通过实验,该系统对中文姓氏的自动辨
识达到了70%的准确率I’41,对文本中的地名和一些领域专有词汇也能进行一定的
识别。
文献【191对一个48,092字的自然科学、社会科学样本进行了统计:交集型切分
歧义518个,多义组合型切分歧义42个。据此推断,中文文本中切分歧义的出现
频度约为1.2次/100字,交集型切分歧义与多义组合型切分歧义的出现比例约为
12:l。
在交集型歧义字段中,绝大多数为链长1和2的歧
义字段,二者合计占到了歧义字段总数的95%和歧义字段出现总次数的97%以上。
表4一1是交集型歧义字段按链长分布表。
<<汉语自动分词算法>>
另外,还可以证明,早期曾流行一时的"切分标志字串"预处理方法是一个毫无必要的技术,
它增加了一遍扫描"切分标志词典"的时空复杂性,却并没有提高分词精度,因为所谓的切
分标志其实都已经隐含在词典之中,是对词典功能的重复。实际上"切分标志"也没有标记
歧义字段的任何信息。因此,在近来的分词系统中,已经基本上废弃了这种"切分标志"
预处理方法。
、杭州大学改进的MM分词系统
考虑到汉语的歧义切分字段出现的平均最大概率为1/110,因而纯机械分词的精度
在理论上能够达到1-1/110=99.1%。那么是否还有更一般、精度更高的机械分词系统呢?
根据统计,汉语的局部(词法一级)歧义字段占了全部歧义的84%,句法歧义占10%,如果
提高系统处理这两类歧义的准确率,则可以大幅度提高切分精度。这方面的改进导致了改
进的MM分词算法。将其阐述如下。
通过对交叉歧义字段的考察,发现其中80%以上可以通过运用一条无需任何语言知识
的"归右原则"(交叉歧义字段优先与其右边的字段成词)就可以获得正确切分,--这是因
为在多数情况下汉语的修饰语在前、中心词在后,因而"归右"好于"归左"。 "归右原则"
可以使机械分词的精度上升到99.70%。这种考察给出了鼓舞人心的结果,有可能使机械
分词系统达到这样的理论精度。
不过"归右原则"还有需要修正的地方,既对于"连续型交叉歧义"会发生错误,需要补
充一条"左部结合"原则:若ABCDE为连续型交叉歧义字段,"归右原则"产生切分
A B C D E 再由"左结合原则"(合并最左边的A、B)而得到AB C DE。
例如"结合成分子"->"结 合 成 分子"->"结合 成 分子"。
但是仍然还有例外,例如"当结合成分子时"->"当 结合 成分 子时";为此引入"跳跃
匹配",在词典中定义"非连续词"(实际上为串模式-作者注)"当*时",然后在切分时首
先分出"当 结合成分子 时",然后再用"归右+左结合"切分中间的歧义字段。以上3项技
术将机械分词的理论切分精度提高到了99.73%。
综合以上思想,就建立了如下改进的MM分词算法:
正向扫描
+ 增字最大匹配(包括"跳跃匹配非连续词")
+ 词尾歧义检查(逐次去掉首字做MM匹配以发现交叉歧义字段)
+ "归右原则"( 对于"连续型交叉歧义"还需要"左结合原则")。
系统的词典采用一级首字索引结构,词条中包括了"非连续词"(形如C1…* Cn)。系统精
度的实验结果为95%,低于理论值99.73%,但高于通常的MM、RMM、DMM方法。
///bs: 有机会见面 就出了问题;
复旦分词系统
此系统由四个模块构成。
一、预处理模块,利用特殊的标记将输入的文本分割成较短的汉字串,这些标记包括
标点符号、数字、字母等非汉字符,还包括文本中常见的一些字体、字号等排版信息。
一些特殊的数词短语、时间短语、货币表示等,由于其结构相对简单,即由数词和特征
字构成构成,也在本阶段进行处
理。为此系统特别增加一次独立的扫描过程来识别这些短语,系统维护一张特征词表,
在扫描到特征字以后,即调用这些短语的识别模块,确定这些短语的左、右边界,然后
将其完整地切分开;
二、歧义识别模块,使用正向最小匹配和逆向最大匹配对文本进行双向扫描,如果两种
扫描结果相同,则认为切分正确,否则就判别其为歧义字段,需要进行歧义处理;
三、歧义字段处理模块,此模块使用构词规则和词频统计信息来进行排歧。构词规则包
括前缀、后缀、重叠词等构词情况,以及成语、量词、单字动词切分优先等规则。在使
用规则无效的情况下,使用了词频信息,系统取词频的乘积最大的词串作为最后切分结
果;最后,此系统还包括一个未登录词识别模块,以解决未登录词造成的分词错误。未登
录词和歧义字段构成了降低分词准确率的两大因素,而未登录词造成的切分错误比歧义字
段更为严重,实际上绝大多数分词错误都是由未登录词造成的。系统对中文姓氏进行了
自动识别,它利用了中文姓名的用字规律、频率,以及姓名的上下文等信息。通过对十万
以上的中文姓名进行抽样综合统计,建立了姓氏频率表和名字用字频率表,由此可获得
任意相邻的二、三个单字构成姓氏的概率大小和某些规律,再利用这些字串周围的一些
称谓、指界动词和特定模式等具有指示意义的上下文信息,对字串是否构成姓名进行
辨别。实验过程中,对中文姓氏的自动辨别达到了70%的准确率。系统对文本中的地名和
领域专有词汇也进行了一定的识别。
<<基于角色标注的中国人名自动识别研究>>
中国人名在未登录词占有较大比重,也是未登录词识别的主要难点。
根据我们对人民日报1998年1月的语料库(共计2,305,896字)进行的统计,
每100字中含未登录词1.192个(不计数词、时间词),其中48.6%的是中国人名。www.bookuu.com/kgsm/ts/2009/06/03/1530271.shtml
<<一种统计与规则相结合的分词方法>>
交集型歧义占94%。
<<中文机构名的自动识别>>
首先,人名在实际语料中占的比重比较大。根据对实际语料的统计,人名占
1.2436%,地名占0.7763%,机构名占0.5817%。
(1)企业名:就是指从事各种经济活动的大小公私经济实体单位的名称,包括:
①工矿企业名:大庆油田、鸡西煤矿、一休服装厂、龙滨不锈钢容器厂
②运输企业名:北方航空公司、哈尔滨铁路局、天鹅出租汽车公司
③建筑企业名:长城建筑工程公司、北方装饰实业有限公司、龙深建筑装饰联合公司
④金融企业名:中国银行、东洋金店、哈尔滨信托投资公司、华美城市信用合作社
⑤商业企业名:秋林公司、滨广电子产品销售公司、龙江酒类联销公司
⑥服务业企业名:金狮酒楼、三义扒肉馆、爱丽咖啡屋、陈氏接骨院
(2)机关团体名:是指党政机关、人民团体等由国家经费开支、不进行经济核算的事
业单位的名称,包括:
①党政军机关名:中国中央委员会、中国人民解放军总参谋部、哈尔滨市水产
局
②党派名:中国、九三学社、中国国民党革命委员会
③军队名:中国人民解放军、中国人民武装警察部队
④科研教学机构名:中国科学院、故宫博物院、大连大学、哈尔滨师范大学附属中学
⑤宣传机构名:中央电视台、商务印书馆、中国少儿出版社、北方论丛编辑部