21、稀疏数据上的n - 元语法模型的统计推断

稀疏数据上的n - 元语法模型的统计推断

在处理自然语言处理中的n - 元语法模型时,稀疏数据是一个常见且棘手的问题。为了更好地估计n - 元语法在未来文本中出现的概率,人们提出了多种方法,下面将详细介绍这些方法。

1. 折扣模型

Ney和Essen(1993)以及Ney等人(1994)提出了两种折扣模型:绝对折扣模型和线性折扣模型。
- 绝对折扣模型 :所有非零的最大似然估计(MLE)频率会被减去一个小的常量,然后将这部分频率均匀分配给未出现的事件。公式如下:
- 如果满足特定条件,频率进行相应折扣;否则,按其他规则处理(原文此处公式表述不完整)。
- 线性折扣模型 :非零的MLE频率会乘以一个略小于1的常量,剩余的概率质量会分配给新出现的事件。公式如下:
- 如果$C(w_1…w_n)=r$,则按特定方式处理;若$r = 0$,则按其他规则处理(原文此处公式表述不完整)。

绝对折扣模型似乎能提供较好的估计,例如通过观察相关数据,折扣值设为0.77可能效果不错,但对于只出现过一次的元素可能会低估。而线性折扣模型难以得到合理的解释,因为通常训练文本中元素的频率越高,未调整的MLE估计就越准确,但线性折扣模型并未体现这一特点。

2. 其他估计方法
  • Lidstone法则的缺点 :它依赖于模型中的分组数量。一些空分组可能是由于数据稀疏问题导致的,但也有很多可能是原则性的空缺。
  • Good - Turing估计 :这是一
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值