词典法
词典法分为:最大匹配法,最大概率法,最短路径法。
最大匹配法是按照一定顺序选取字符串中的若干个字当做一个词,去词典中查找。根据扫描方式分为:
1)正向最大匹配法(由左到右的方向);
2)逆向最大匹配法(由右到左的方向);
3)最少切分(使每一句中切出的词数最小);
4)双向最大匹配法(进行由左到右、由右到左两次扫描)
最大概率法:一句话可能包含多种分词结果,将其中概率最大的那个作为句子的分词结果。
最短路径指词图上选择一条词数最少的路径
理解法
这种分词方法是通过让计算机模拟人对句子的理解,达到识别词的效果。其基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象。它通常包括三个部分:分词子系统、句法语义子系统、总控部分。在总控部分的协调下,分词子系统可以获得有