全切分分词

全切分分词遵循'宁可错杀三千,不可放过一个'原则,找出所有词典中的词汇。它是许多分词算法的前处理步骤,通过建立状态词典、获取DAG并输出所有可能词汇来实现。全切分词是后续分词算法的基础。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

全切分分词

如果在分词的时候本着"宁可错杀三千,不可放过一个"的原则,将句子中所有在词典中出现的词汇都找出来,这样的分词算法就叫做全切分词。

全切分词是很多种分词算法的前处理环节,利用全切分词生成有限无环图DAG,然后利用不同的算法求出一条或多条不同的路径,是很多分词算法的一部分。

算法

1. 根据字典建立state dict/pdict
Input: 字典dict={w1, w2, ..., wn}
Output: 有限状态机的pdict
pdict = {}
for word in dict:
    pdict[word] = 1
    lw = len(word)
    
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值