20、统计估计器:自然语言处理中的概率估计方法

统计估计器:自然语言处理中的概率估计方法

1. 期望似然估计(ELE)

在自然语言处理里,期望似然估计(ELE)是一种重要的概率估计方法。以单词“was”后面所接单词的概率估计为例,下面的表格展示了最大似然估计(MLE)和期望似然估计(ELE)的结果:
| Rank | Word | MLE | ELE |
| ---- | ---- | ---- | ---- |
| 1 | not | 0.065 | 0.036 |
| 2 | a | 0.052 | 0.030 |
| 3 | the | 0.033 | 0.019 |
| 4 | to | 0.031 | 0.017 |
| inferior | 0 | 0.00003 |

在训练语料库中,“not”出现了608次,而语料库总共包含14589种不同的单词类型。新的估计值为((608 / (14589 \times 0.5)) = 0.036),相较于MLE,ELE对出现过的单词的概率估计进行了折扣处理,同时为未出现的单词赋予了非零的出现概率。不过,ELE对一个子句的概率估计为(6.89 \times 10^{-10}),低于基于一元语法计数的MLE估计,这反映出在构建ELE模型时,对已见n - 元语法的MLE概率估计进行了大幅折扣。尽管概率估计值极低,但ELE仍可用于对不同选项进行排序。

2. 留出估计(Held out estimation)

2.1 留出估计器

为了判断给未出现事件分配46.5%的概率空间是否过多,可采用留出估计的方法。具体而言,对于每个n - 元语法,设(c_r)为其在训练数据中的频

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值