中文分词之jieba分词

本文介绍了jieba分词的基本原理和方法,包括trie树匹配、有向无环图(DAG)、贝叶斯公式、N元模型以及jieba分词的实践应用。通过动态规划和HMM模型,jieba能够高效准确地处理中文分词,同时处理未登录词。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

分词粒度:粗粒度、细粒度
推荐场景:粗粒度
搜索场景:细粒度——召回

1.最基本的切词方法:
trie树匹配:前向、后向,举例:

2.dag(有向无环图),举例:

3.每种切分方案的概率计算:

贝叶斯公式:

贝叶斯公式推导:

目标:P(S|C) = P(S)

因为:P(S|C) P(C)=P(S,C)

P(C|S) P(S)=P(C,S)

所以:P(S|C) P(C)=P(C|S) P(S)

所以:P(S|C) =P(C|S) P(S)/P(C)

因为:P(C)是一个固定值,P(C|S)=100%()

所以:P(S|C) = P(S)

举例:

如果

C = 本田雅阁
S = 本田 / 雅阁
S = 本 / 田 / 雅阁

那么:

P(C)=本田雅阁(如果有一万个词,那么P(C)=万分之一,固定值)

P(C|S)=P(本田雅阁|本田 / 雅阁)=100%(在有分词推导 出原词的情况下是100%)

 

按词计算概率:

P(S)=P(W1,W2,W3....)=P(W1)P(W2)P(W3)...

举例:P(S1)=P(南京市,长江,大桥)=P(南

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

曾牛

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值