程序采用最大匹配法完成。
其中采用的语料库来自于詹卫东:
http://ccl.pku.edu.cn/doubtfire/Course/Chinese%20Information%20Processing/2002_2003_1.htm
程序也参考了他的。
其中的表words结构是:wid (int), word(文本), wfreq(int)
而涉及的另外一个自定义的结构:









整体程序如下:
操作流程为:打开数据库,将数据库中文件读入到DataSet中。并形成一个ArrayList的字典结构。
打开要分词的文件--->分词(A:处理非中文字符 B:处理标点符号 C处理纯中文字符串)
















































































































































