文本处理——语言模型

最新推荐文章于 2025-01-28 11:52:16 发布

Shingle_

最新推荐文章于 2025-01-28 11:52:16 发布

阅读量1.4k

点赞数 3

CC 4.0 BY-SA版权

分类专栏：自然语言处理文章标签： N-gram smoothing NNLM RNNLM perplexity

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/Shingle_/article/details/82392017

统计语言模型

Language modeling:

利用条件概率公式，S这个序列出现的概率等于每一个词出现的条件概率相乘。

P (S) = P (w 1, w 2, \dots, w t - 1, w t) = P (w 1) P (w 2 | w 1) P (w 3 | w 1, w 2) \dots P (w t | w 1, w 2, \dots w t - 1) .

$P(S) = P(w_1, w_2, \ldots, w_{t-1},w_t) = P(w_1) P(w_2|w_1) P(w_3|w_1,w_2) \ldots P(w_t | w_1, w_2, \ldots w_{t-1}).$

P (w 1, w 2, \dots, w T) = \prod t = 1 T P (w t ∣ w 1, \dots, w t - 1) .

$\mathbb{P}(w_1, w_2, \ldots, w_T) = \prod_{t=1}^T \mathbb{P}(w_t \mid w_1, \ldots, w_{t-1}) .$

举个例子：

P (w 1, w 2, w 3, w 4) = P (w 1) P (w 2 ∣ w 1) P (w 3 ∣ w 1, w 2) P (w 4 ∣ w 1, w 2, w 3) .

$\mathbb{P}(w_1, w_2, w_3, w_4) = \mathbb{P}(w_1) \mathbb{P}(w_2 \mid w_1) \mathbb{P}(w_3 \mid w_1, w_2) \mathbb{P}(w_4 \mid w_1, w_2, w_3) .$

P (w 1) = n u m (w 1) / n u m (a l l)

$\mathbb{P}(w_1) = num(w_1) / num(all)$

P (w 2 ∣ w 1) = P (w 1, w 2) / P (w 1)

$\mathbb{P}(w_2 \mid w_1) = \mathbb{P}(w_1, w_2) / \mathbb{P}(w_1)$

P (w 3 ∣ w 1, w 2) = P (w 1, w 2, w 3) / P (w 1, w 2)

$\mathbb{P}(w_3 \mid w_1, w_2) = \mathbb{P}(w_1, w_2, w_3) / \mathbb{P}(w_1, w_2)$

. . .

$...$

问题：条件概率太多，无法估算。

N-gram

k-dependent Markov chain:

当序列长度增加时，计算和存储多个词共同出现的概率会指数增加。N 元语法通过马尔可夫假设（虽然并不一定成立）简化了语言模型的计算。马尔可夫假设是指一个词的出现至于前面 n 个词相关，即 n 阶马尔可夫假设。n 元语法（n-grams）。它是基于 n−1 阶马尔可夫链的概率语言模型：

P (w 1, w 2, \dots, w T) \approx \prod t = 1 T P (w t ∣ w t - (n - 1), \dots, w t - 1) .

$\mathbb{P}(w_1, w_2, \ldots, w_T) \approx \prod_{t=1}^T \mathbb{P}(w_t \mid w_{t-(n-1)}, \ldots, w_{t-1}) .$

常用：

unigram: P (w 1, w 2, w 3, w 4) = P (w 1) P (w 2) P (w 3

最低0.47元/天解锁文章

200万优质内容无限畅学

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。