31、词序列处理中的N - 元语法技术详解

词序列处理中的N - 元语法技术详解

在词序列处理领域,为了更准确地估计词序列的概率,有多种技术可供使用,下面将详细介绍线性插值、回退模型、Katz回退模型、Kneser - Ney平滑模型等方法,同时探讨工业级N - 元语法的应用以及语言模型质量的评估。

1. 可变长度N - 元语法的使用

在处理词序列时,我们常常会遇到未见过的N - 元语法,其概率估计会受到所含单词的影响。为了解决这个问题,我们引入了线性插值和回退模型这两种技术。

1.1 线性插值

线性插值,也称为删除插值,它将长度从1到n的最大似然估计进行线性组合。以三元语法为例,其计算公式为:
[P_{Interpolation}(w_n|w_{n - 2}, w_{n - 1}) = \lambda_3P_{MLE}(w_n|w_{n - 2}, w_{n - 1}) + \lambda_2P_{MLE}(w_n|w_{n - 1}) + \lambda_1P_{MLE}(w_n)]
其中,(0 \leq \lambda_i \leq 1) 且 (\sum_{i = 1}^{3} \lambda_i = 1)。这些参数值可以手动设置为常数,例如 (\lambda_3 = 0.6),(\lambda_2 = 0.3),(\lambda_1 = 0.1);也可以通过语料库进行训练和优化。

以下是使用 (\lambda_2 = 0.7) 和 (\lambda_1 = 0.3) 计算二元语法插值概率的示例表格:
| (w_{i - 1}, w_i) | (C(w_{i - 1}, w_i)) | (C(w_{i - 1})) | (P_{MLE}(w_i

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值