Java实现正向最大匹配法和逆向最大匹配法
在自然语言处理中,词是语言中最小的能够独立运用的单位,是信息处理的基本单位。 汉语自动分词是把没有明显分界标志的字串切分为词串。包括:标点符号、数字、数学符号、各种标记、人名、地名、机构名等未登录词的识别。分词算法基于规则的自动分词算法事先人工建立好分词词典和分词规则库。原理为基于字符串匹配进行分词,这样就要求有足够大的词表为依据。通过一定的算法来实现,如正向最大匹配法、逆向最大匹配法、双向
原创
2017-03-19 23:36:30 ·
5529 阅读 ·
1 评论