语言模型总结（待完善）

最新推荐文章于 2024-11-09 20:25:15 发布

==樛木==

最新推荐文章于 2024-11-09 20:25:15 发布

阅读量796

点赞数

CC 4.0 BY-SA版权

分类专栏：深度学习之个人总结文章标签：语言模型 n-gram rnn lstm 困惑度

本文链接：https://blog.youkuaiyun.com/weixin_38493025/article/details/85600483

深度学习之个人总结专栏收录该内容

11 篇文章

订阅专栏

本文介绍了统计语言模型的基础概念，包括马尔可夫假设和目标函数，探讨了n-gram、RNNLMs、LSTM以及BiLSTM的优缺点。重点在于理解语言模型如何通过捕捉上下文依赖来预测序列概率，同时分析了困惑度作为评价指标的重要性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1. 基本概念

1.1语言模型的概念

生成文本序列的通常方式是训练模型在给定所有先前词／字符的条件下预测下一个词／字符出现的概率。此类模型叫作统计语言模型.
任意语言模型的主要目的都是学习训练文本中字符／单词序列的联合概率分布，即尝试学习联合概率函数。从而捕捉训练文本的统计结构。

记 $W=w_1^K=(w_1,...,w_K)$ 表示由K个词 $w_1,...,w_K$ 按顺序构成的一个句子。则这个句子的概率为 $P(W)=P(w_1^K)=P(w_1,...,w_K)//联合概率 \\=P(w_1)P(w_2|w_1)P(w_3|w_1,w_2)…P(w_K|w_1,w_2,...,w_{K-1}) \\=P(w_1)P(w_2|w_1^1)P(w_3|w_1^2)...P(w_K|w_1^{K-1})//记为向量形式\\=\prod_{i}P(w_i|w_1^{i-1})$

1.2马尔可夫假设

一个词出现的概率只与它前面的n-1个词有关
$P(w_i|w_1^{i-1})\approx P(w_i|w_{i-n+1}^{i-1})$
因此:
$P(W)=P(w_1^K) = P(w_1,...,w_K)\\ =P(w_1)P(w_2|w_1)P(w_3|w_1,w_2)…P(w_K|w_1,w_2,...,w_{K-1}) \\\approx \prod_i P(w_i|w^{i-1}_{i-n+1})//马尔可夫n元假设 \\\approx P(w_1)P(w_2|w_1)P(w_3|w_1,w_2)…P(w_n|w_{n-2},w_{n-1})//马尔可夫三元假设 \\\approx P(w_1)P(w_2|w_1)P(w_3|w_2)...P(w_n|w_{n-1})//马尔可夫假设二元模型$ 由大数定理，概率用频率近似: $P(w_i|w_{i-1})=\frac{P(w_{i-1},w_i)}{P(w_{i-1})}\approx \frac{count(w_{i-1},w_i)}{count(w_{i-1})}$