深度学习--＞NLP--＞语言模型_nlp 语言模型深度学习模型-优快云博客

本文链接：https://blog.youkuaiyun.com/Mr_tyting/article/details/78218096

本文介绍概率语言模型的基本概念及其在NLP任务中的应用，包括输入法预测、机器翻译和语音识别等。详细解释了N-gram模型，如Unigram、Bigram和Trigram，并探讨了如何通过平滑技术解决OOV问题。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

从本篇博文开始总结 $N L P$ 相关知识。

概率语言模型 $Model)(Statistical\ Language\ Model)$

${p}(sentence)={p}({w}_{1},{w}_{2},..,{w}_{n})$

$∑sentence∈Lp(sentence)=1\sum_{sentence\in L}^{}{p}(sentence)=1$ （相加之和为１，非常重要）

例如：

输入法: $P$ (隔壁老王) > $P$ (隔壁老张)
机器翻译:
$dreamI\ have\ a\ dream$
$P$ (我有个梦想) > $P$ (我有只梦想)
语音识别:
$P$ (我向你汇报) > $P$ (我象你汇报)

核心：所以语言模型一般指的是概率语言模型，通过分数来告诉机器怎么说人话。

N-gram 语言模型

$N - g r a m$ 模型是语言模型里面最经典的模型之一。

计算 $p({w}_{1},{w}_{2},...,{w}_{n})$
利用链式法则：
$p (A, B, C) = p (A) p (B ∣ A) p (C ∣ A, B)$

可得：
$p({w}_{1},{w}_{2},...,{w}_{n})=p({w}_{1})p({w}_{2}|{w}_{1})...p({w}_{n}|{w}_{1},{w}_{2},...,{w}_{n-1})$

马尔可夫 $(M a r k o v)$ 假设:

“无记忆性”: 未来的事件,只取决于有限的历史。

基于马尔科夫假设计算 $p({w}_{5}|{w}_{4},{w}_{3},{w}_{2},{w}_{1})$ ，有三种版本的结果。

$u n i g r a m$ ： $p({w}_{5})$

$b i g r a m$ ： $p({w}_{5}|{w}_{4})$

$t r i g r a m$ ： $p({w}_{5}|{w}_{4},{w}_{3})$

我们以 $b i g r a m$ 为例，计算 $p({w}_{1},{w}_{2},...,{w}_{n})=p({w}_{1}|start)p({w}_{2}|{w}_{1})...p({w}_{n}|{w}_{n-1})p(EOS|{w}_{n})$

显然引入马尔科夫假设，会使得模型变得简单，参数个数减少。

这里写图片描述

语言模型的评价

$P e r p l e x i t y$

测试集的能力
语言模型 ⬆-> $set)P(test\ set)$ ⬆ -> $set)Perplexity(test\ set)$ ⬇

$Wtest={w1,w2,...,wn;wi∈V}{W}_{test}=\{{w}_{1},{w}_{2},...,{w}_{n};{w}_{i}\in V\}$
$Perplexity(Wtest)=2−1n∑i=1Nlog2q(wi)Perplexity({W}_{test})={2}^{-\frac{1}{n}\sum_{i=1}^{N}{log}_{2}q({w}_{i})}$

$q({w}_{i})$ 表示模型对每个词的预测概率。

理解 $P e r p l e x i t y$

这里写图片描述

${log}_{2}p({v}_{i})$ ：如果用概率 $p$ 来编码 ${v}_{i}$ ，需要多少比特。
$−∑i=1∣V∣p^(vi)log2q(vi)-\sum_{i=1}^{|V|}\hat{p}({v}_{i}){log}_{2}q({v}_{i})$ ：表示 ${v}_{i}$ 服从 $p$ ， $q$ 来编码 ${v}_{i}$ 比特数的期望。
$2−1n∑i=1Nlog2q(wi){2}^{-\frac{1}{n}\sum_{i=1}^{N}{log}_{2}q({w}_{i})}$ ， $W_{test}$ 的等效状态数目。

$P e r p l e x i t y$ 越小表示预测正确的概率越大。

## $Vocab)OOV(Out\ of\ Vocab)$
以 $ModelTrigram\ Model$ 为例：

$p(wi∣wi−1,wi−2)=count(wi−2,wi−1,wi)count(wi−2,wi−1)p({w}_{i}|{w}_{i-1},{w}_{i-2})=\frac{count({w}_{i-2},{w}_{i-1},{w}_{i})}{count({w}_{i-2},{w}_{i-1})}$

这里写图片描述

那么有人可能要问：为什么上面公式成立？

这里写图片描述

下面我们以上面这个训练集为例，利用***最大似然估计*** 的方法来证明上式成立。

$log(L(DTrain))=log(∏ip(wi∣wi−1,wi−2))=∑ilog(p(wi∣wi−1,wi−2))max\ log(L({D}_{Train}))=log(\prod_{i}^{}p({w}_{i}|{w}_{i-1},{w}_{i-2}))=\sum_{i}^{}log(p({w}_{i}|{w}_{i-1},{w}_{i-2}))$

$= 3 * l o g (p (我 ∣ -, -)) + l o g (p (你 ∣ - -)) + 3 * l o g (p (喜欢 ∣ -, 我)) + l o g (p (喜欢 ∣ -, 你)) + l o g (p (开车 ∣ 我喜欢)) + l o g (p (上网 ∣ 我喜欢))$
$+ l o g (p (篮球 ∣ 我喜欢)) + l o g (p (编程 ∣ 你喜欢))$

我们以首字符举例

约束条件： $p (我 ∣ -, -) + p (你 ∣ -, -) = 1$

由拉格朗日乘子法：$$L = 3*log(p(我|-,-)) + log(p(你|-, -))

lambda * (p(我|-,-) + p(你|-,-) - 1)$$

L对参数的导数等于零： $dLd(p(我∣−,−))=0；dLd(p(你∣−,−))=0；dLd(lambda)=0\frac{dL}{d(p(我|-,-))} = 0； \frac{dL}{d(p(你|-,-))}= 0； \frac{dL}{d(lambda)}= 0$

得： $3 / p (我 ∣ -, -) + l a m b d a = 0;$
$1 / p (你 ∣ -, -) + l a m b d a = 0;$
$p (我 ∣ -, -) + p (你 ∣ -, -) - 1 = 0$

可计算得出： $\frac{3} {3 + 1} = \frac{count(-,-,我)}{count(-,-,我) + count(-,-,你)}$

假设我们现在由训练集得出一个模型 $p$ ，现在由模型给测试集中的"我喜欢　王者荣耀"打分。

$P$ (王者荣耀|我喜欢) = $0$ ( $T r a i n i n g$ 中来没有出现的词)－-> $(Out\ of\ Vocabulary)$

按照上面的计算公式 $P$ (王者荣耀|我喜欢) = 0，显然不合理，训练集中没出现"王者荣耀"并不能代表就不喜欢？

同理：
$P$ (编程|我喜欢) = $0$ ( $T r a i n i n g$ 中没有出现的 $t r i g r a m$ )–>Smoothing

那么如何解决 $O O V$ 问题呢？

假设 $SetTraining\ Set$ 中出现了 $∣ V^{'} ∣$ 个不同的词汇,那么我们根据词频***选择词频最高的 $∣ V ∣$ 个词汇作为我们的词汇集 $V$ 。***
在 $T r a i n i n g$ 和 $T e s t i n g$ 中,将不属于 $V$ 的词汇都替换成特殊词汇 $U N K$ 。

这里写图片描述

$V^{'} =$ {我喜欢开车上网篮球编程}
$V =$ {我喜欢开车上网编程 }

$P (王者荣耀 ∣ 我喜欢) = P (U N K ∣ 我喜欢) = c o u n t (我喜欢 U N K) / c o u n t (我喜欢) = 1 / 3 = 0.333$

平滑方法

$T r a i n i n g$ 中没有出现的 $t r i g r a m$ ，就是在训练集中没出现这种组合。

共有以下几种方法解决：

+1 平滑
$B a c k - o f f$ 回退法
$I n t e r p o l a t e$ 插值法
$DiscountAbsolute\ Discount$
$SmoothingKneser-Ney\ Smoothing$
$SmoothingModified\ Kneser-Ney\ Smoothing$ (最优的方法)

+1 平滑

这里写图片描述

该平滑方法在别的分类问题中可能有用，但是在语言模型中表现一般，基本上不用。

$B a c k - o f f$ 回退法

这里写图片描述

$C o u n t$ (我喜欢编程) = 0，但是 $c o u n t$ (喜欢编程) > 0

使用 $T r i g r a m$ 如果 $c o u n t (t r i g r a m)$ 不满足条件，则使用 $B i g r a m$ ;再否则使用 $U n i g r a m$ ;

因为之前已经解决了 $O O V$ 问题，所以 $U n i g r a m$ 不可能为０。

Interpolate 插值法

将 $T r i g r a m, B i g r a m, U n i g r a m$ 线性组合起来：

这里写图片描述

这里面的参数如何得出？同理使用极大似然估计得：

这里写图片描述

$l o g$ 里面只有几个参数的和求导之后,各个参数耦合在一起。EM 算法来解决。

更进一步：

这里写图片描述

根据不同的上下文,选择不同的参数。显然这样处理 $P e r p l e x i t y$ 变小，

Absolute Discounting “绝对折扣”

这里写图片描述

$wi−n+1i−1{w}^{i-1}_{i-n+1}$ 表示 ${w}_{i-n+1}$ 到 ${w}_{i-1}$ 的 $n\_gram$ 。显然由公式可知在这种平滑方法中，计算结果和 $Pabs(wi∣wi−n+2i−1){P}_{abs}({w}_{i}|{w}^{i-1}_{i-n+2})$ 有很大关系。