搜索引擎之中文分词实现（java版）

Java实现中文分词：搜索引擎中的统计分词方法

最新推荐文章于 2021-02-13 11:13:21 发布

原创

最新推荐文章于 2021-02-13 11:13:21 发布 · 1.6w 阅读

19 ·

CC 4.0 BY-SA版权

文章标签：

#搜索引擎 #java #hashmap #integer #iterator #string

本文介绍了基于Java实现的中文分词系统，主要包括语料预处理、建立2-gram模型、全切分实现和评估测试四个步骤。通过2-gram模型和回溯算法解决歧义问题，提高分词效率。

搜索引擎之中文分词实现（java版）

前几天读到google研究员吴军的数学之美系列篇，颇有感触。而恰好自己前段时间做了个基于统计语言模型的中文切分系统的课程项目，于是乎，帖出来与大家共同学习。

分词技术在搜索引擎，信息提取，机器翻译等领域的重要地位与应用就不敖述了。步入正题：）

一、项目概述

本切分系统的统计语料是用我们学校自己开放的那部分，大家可以在这里下载，中文字符约184万，当然这都是已切分好了的，可以用此建立一个比较小的语料库。本系统我主要分下面四个步骤完成：

1、语料预处理

2、建立 2-gram（统计二元模型）

3、实现全切分

4、评估测试

下面我分别对这四个方面一一道来。

1、语料预处理

下载的已切分的语料都是形如“19980131-04-012-001/m 现实/n 的/u 顿悟/vn 却/d 被/p 描/v 出/v 形/Ng 来/v 。/w ” ，有的前面还保留了日期编号，因为这些切分语料的来源是人民日报。预处理主要是按标点符号分句，句子简单定义为（。？！：；）这五种标点符号结尾的词串，句子首尾分别添加<BOS>和<EOS>这两个表示句子开始和结束的标记，这在2-gram建模时要用的，后面会提到。处理过程中，忽略词类信息和前面的日期信息，因为我这个切分系统不考虑词类标注。如前面这句预处理后应该为下面形式 “<BOS>现实的顿悟却被描出形来。<EOS>” ，当然切分词之间你可以用你想用的符号标记，而不必是空格。因为考虑到所有的英文字符和数字的ASCII，我用了下面方法实现之：

out ; //输出流

in; //输入流

StringBuffer s1 = new StringBuffer(); //缓冲

char a = in.read();

while (a != -1) //判断是否已到流的终点

{

if ((a == '。' || a == '？' || a == '！' || a == '：' || a == '；' )) //一句结束

{

String s2 = new String(s1);

out.write("<BOS>"); //在句子前加 <BOS>

out.write(s2);

out.write("<EOS>"); //在句子末尾加 <EOS>

out.write('/n'); //换行

s1 = new StringBuffer();

}

else if ( a == '/') &nb

最低0.47元/天解锁文章

6 条评论

alps07 2008.11.19
楼上写的不错啊有几个问题想请教一下， 1、解空间是不是指树中的每一个从根到叶子的路径都为一个切分结果？ 2、剪枝怎么实现呢？如果一个路径没有计算出来，好像剪枝就没法用，也就是说剪枝好像使用不上吧。还有一些的问题想和你交流一下，有空请发我邮箱：linjing@cs.hitsz.edu.cn谢谢！

Helen_chenhp 2008.01.11
请问文档搜索引擎中,如何利用正则表达式解析xml文档?

风拂杨柳 2006.07.29
谢谢bruce的建议：） 这一段时间忙着点别的事 我会尽快把整理好的代码放上来和大家分享 当然是可以考虑增加词汇分类功能的

csdn blog 编辑 2006.07.21
网友,经过优快云 Blog专家顾问团的合议，您的文章："搜索引擎之中文分词实现（java版）"，成为7月18日的“每日一帖”！请参考下面的提示和我们联系领取奖品事宜，谢谢你向广大优快云网友分享你的原创文章。 提示： 1.评选时间为周一至周五！ 2.请您及时查看和关注您的个人Blog，我们会以评论的形式告诉您获奖的信息。 3.本次活动奖品是由第二书店提供的100个D币，请访问第二书店(www.dearbook.com.cn)激活您的D币帐号；激活后请将您[Dearbook的注册邮件]/[Blog的帐号]//[获奖文章名称]/[获奖日期]回复邮件给我们的编辑gaocao(AT)youkuaiyun.com； 4.请各位网友及时查收您的D币帐号，有问题及时和我们联系，或者在本栏目评论。 5.[每日一帖]不断更新中…… 明天将评选出今天的每日一帖 6.详细请参考：http://blog.youkuaiyun.com/todaypost/