Beam Search score function

最新推荐文章于 2025-03-20 15:43:08 发布

元气少女wuqh

最新推荐文章于 2025-03-20 15:43:08 发布

阅读量1.3k

点赞数

分类专栏： Machine Learning: Theory & Models

本文链接：https://blog.youkuaiyun.com/tsinghuahui/article/details/86740874

版权

Machine Learning: Theory & Models 专栏收录该内容

1 篇文章

订阅专栏

一般情况下，beam search 通常用于翻译等句子生成任务中。 beam_size 用来在翻译所所需时长和翻译准确度之间进行权衡。当beam_size = 1时，beam search 则退化为 greedy search。

另一方面，当 n_best 的取值大于1时，由 beam search 可以得到一个 approximate n-best list，而不是只输入一个最优值。

Hypotheses filtering

可以通过控制 (unkown words) 数量来对 beam search 生成的 hypotheses 进行 filtering. 当一个 hypothese 包含太多时可以将其 drop 掉。需要注意的是，drop hypotheses 会暂时降低 beam size.

Normalization

令 $X$ 表示 src sentence, $Y$ 表示 current tgt sentence，score function 可以为：
$\frac{\log P(Y|X)}{lp(Y)} + cp(X, Y) = \frac{\sum\log P(y_i|X, y_{1,...,i-1})}{lp(Y)} + cp(X, Y)$

下面对上式中 $lp(\cdot)$ 和 $cp(\cdot)$ 分别为 length penalty 和 coverage penalty.

Length normalization

$\frac{(5 + |Y|)^{\alpha}}{(5 +1)^{\alpha}}$

其中， $∣ Y ∣$ 是当前 tgt sentence 的长度， $\alpha$ 是 length normalization coefficient.

Coverage normalization

$\beta \sum_{i=1}^{|X|} \log \left( \min\left(\sum_{j=1}^{|Y|} p_{i,j}, 1.0\right) \right)$

其中， $p_{i,j}$ 是第 $j$ 个 tgt word $y_j$ 关于第 $i$ 个 src word $x_i$ 的 attention probability. $∣ Y ∣$ 是当前 tgt sentence 的长度， $\beta$ 是 coverage normalization coefficient.