稀疏数据上的n - 元语法模型的统计推断
在处理自然语言处理中的n - 元语法模型时,稀疏数据是一个常见且棘手的问题。为了更好地估计n - 元语法在未来文本中出现的概率,人们提出了多种方法,下面将详细介绍这些方法。
1. 折扣模型
Ney和Essen(1993)以及Ney等人(1994)提出了两种折扣模型:绝对折扣模型和线性折扣模型。
- 绝对折扣模型 :所有非零的最大似然估计(MLE)频率会被减去一个小的常量,然后将这部分频率均匀分配给未出现的事件。公式如下:
- 如果满足特定条件,频率进行相应折扣;否则,按其他规则处理(原文此处公式表述不完整)。
- 线性折扣模型 :非零的MLE频率会乘以一个略小于1的常量,剩余的概率质量会分配给新出现的事件。公式如下:
- 如果$C(w_1…w_n)=r$,则按特定方式处理;若$r = 0$,则按其他规则处理(原文此处公式表述不完整)。
绝对折扣模型似乎能提供较好的估计,例如通过观察相关数据,折扣值设为0.77可能效果不错,但对于只出现过一次的元素可能会低估。而线性折扣模型难以得到合理的解释,因为通常训练文本中元素的频率越高,未调整的MLE估计就越准确,但线性折扣模型并未体现这一特点。
2. 其他估计方法
- Lidstone法则的缺点 :它依赖于模型中的分组数量。一些空分组可能是由于数据稀疏问题导致的,但也有很多可能是原则性的空缺。
- Good - Turing估计 :这是一
超级会员免费看
订阅专栏 解锁全文

11

被折叠的 条评论
为什么被折叠?



