语言模型的评估指标-Perplexity

最新推荐文章于 2025-03-12 08:26:15 发布

净心净意

最新推荐文章于 2025-03-12 08:26:15 发布

阅读量1.9k

点赞数

分类专栏：自然语言处理文章标签：自然语言处理

本文链接：https://blog.youkuaiyun.com/qq_40127118/article/details/106952222

版权

自然语言处理专栏收录该内容

5 篇文章

订阅专栏

前言

语言模型是什么呢？
标准定义：对于语言序列 $w_1,w_2,...,w_n$ ，语言模型就是计算该序列的概率，即 $P(w_1, w_2,...,w_n)$ 。
通俗解释：判断一句话是不是我们正常说的话，即是不是人话。如P(我，打，篮球)>P(篮球，打，我)。
那么怎样评估语言模型好坏呢？这里介绍一个评估指标：perplexity(困惑度)
由于网上有很多对perplexity的解释，这里就不做重复，只是从应用的角度来说说perplexity。
这里推荐一个知乎的解释：https://www.zhihu.com/question/58482430

perplexity

perplexity公式：

$perplexity=2^{-x}$ 这里的x为序列的average log probability（平均对数概率），即 $x=\frac{1}{N}logP(w_1,w_2,...,w_N)$ 。

perplexity应用举例：

例子1：结合n-gram，假如我们使用2-gram计算 $P(w_1,w_2,...,w_N)$ ，那么 $x=\frac{1}{n}logP(w_1,w_2,...,w_N)=logP(w_1)+\sum_{i=2}^NlogP(w_i|w_{i-1})$ ，则对于2-gram的目标函数为： $minimize\,\,perplexity=2^{-\frac{1}{n}[logP(w_1)+\sum_{i=2}^nlogP(w_i|w_{i-1})]}=2^{-x}$ 当x越大时，perplexity越小，说明模型的效果越好。
例子2：在一个语言模型中，我们通常会遇到oov(out-of-vocabulary)词，如果直接用0概率计算的话，那么会导致整个句子的概率为0，所以我们通常会引入Add-K smoothing的方法解决，以下是2-gram情况下的Add-K smoothing公式 $P_{Add-k}({w_i|w_{i-1}})=\frac{P(w_i, w_{i-1})+K}{P{(w_{i-1})+KV}} \,\,\,\,\,\,K=1,2,...,k$ 那么这个K我们怎么选择，才能使模型达到最好的效果呢？假设我们n-gram的n选定的情况下，这时可以将K当作一个超参数，则我们在验证模型时需要 $argmin_k\,\,f(K)$