Smoothing



返回主目录

这是一个系列的文章,点击返回综合目录页


Add-one Smoothing


P A d d − 1 ( W i ∣ W i − 1 ) = C ( W i − 1 , W i ) + 1 C ( W i ) + V P_{Add-1}(W_i|W_{i-1}) = \frac{C(W_{i-1},W_{i})+1}{C(W_i)+V} PAdd1(WiWi1)=C(Wi)+VC(Wi1,Wi)+1
在这里插入图片描述


Add-K Smoothing


P A d d − K ( W i ∣ W i − 1 ) = C ( W i − 1 , W i ) + K C ( W i ) + K V P_{Add-K}(W_i|W_{i-1}) = \frac{C(W_{i-1},W_{i})+K}{C(W_i)+KV} PAddK(WiWi1)=C(Wi)+KVC(Wi1,Wi)+K


Interpolation


核心思路:在当前的语料库中没有出现,不代表未来不会出现,因此,在计算Trigram概率的同时,考虑Unigram,Bigram,Trigram出现的频次

P I n t e r p o l a t i o n ( W n ∣ W n − 1 , W n − 2 ) = λ 1 P ( W n ∣ W n − 1 , W n − 2 ) + λ 2 P ( W n ∣ W n − 1 ) + λ 3 P ( W n ) P_{Interpolation}(W_n|W_{n-1},W_{n-2}) = \lambda _1P(W_n|W_{n-1},W_{n-2})+\lambda _2P(W_n|W_{n-1})+\lambda _3P(W_n) PInterpolation(WnWn1,Wn2)=λ1P(WnWn1,Wn2)+λ2P(WnWn1)+λ3P(Wn)


Good-Turning Smoothing


对于 没有 出现过的单词
P M L E = 0 P_{MLE} = 0 PMLE=0
P G T = N 1 N P_{GT} = \frac{N_1}{N} PGT=NN1

N 1 N_1 N1表示出现1次的单词的数量

对于 出现过的单词
P M L E = C N P_{MLE} = \frac{C}{N} PMLE=NC
P G T = ( C + 1 ) N c + 1 N c ∗ N P_{GT} = \frac{(C+1)N_{c+1}}{N_c*N} PGT=NcN(C+1)Nc+1

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值