全切分分词
如果在分词的时候本着"宁可错杀三千,不可放过一个"的原则,将句子中所有在词典中出现的词汇都找出来,这样的分词算法就叫做全切分词。
全切分词是很多种分词算法的前处理环节,利用全切分词生成有限无环图DAG,然后利用不同的算法求出一条或多条不同的路径,是很多分词算法的一部分。
算法
1. 根据字典建立state dict/pdict
Input: 字典dict={w1, w2, ..., wn}
Output: 有限状态机的pdict
pdict = {}
for word in dict:
pdict[word] = 1
lw = len(word)