Seq2Seq模型中的label bias和exposure bias问题

本文深入探讨Seq2Seq模型中的两大偏差问题:labelbias和exposurebias。labelbias源于真实目标与建模目标的不一致,导致输出偏差。exposurebias由训练与预测输入不一致引起,使用teacherforcing技巧加剧此问题。文章详细解析偏差原因及缓解策略。

从序列到序列的seq2seq模型中,存在着label bias和exposure bias问题。这两个偏差问题是由于不同的原因导致的。先给出结论在分别解释

  • label bias:根本原因是我们真实的目标与建模的目标不一致,导致模型最终求得的输出和我们真实想要的输出存在偏差。体现在联合概率分布上就是,真实想要的分布应该是全局归一化得到的。而建模得到的分布是局部归一化得到的。
  • exposure bias是由于seq2seq训练难以收敛,而引入了teacher forcing训练技巧,使得训练更容易收敛。由于techer forceing的引入带来了训练和预测时输入值的不一致,导致了exposure bias问题。

1.label bias标签偏差

上面说了label bias根本上是由于真实目标与建模目标不一致导致。我们以教模型写诗为例。

在seq2seq模型中,想要生成一个序列。真实的目的应该是从所有可能的序列结果中选择联合概率最大的那个做为输出。用概率描述就是:
m a x p ( y 1 y 2 . . . y n ∣ x 1 x 2 . . . x n ) \mathop{max}p(y_1y_2...y_n|x_1x_2...x_n) maxp(y1y2...ynx1x2...xn)
真实目的是找到使得上式概率最大的序列作为输出。计算一句话的概率就是语言模型(Language Model,LM)要做的事情。即计算一句话 w 1 , w 2 , . . . , w l w_1,w_2,...,w_l w1,w2,...,wl出现的概率 p ( w 1 w 2 . . . w l ) p(w_1w_2...w_l) p(w1w2...wl)。只是我们这里是条件概率,所以也可以叫做条件语言模型。下面都是关于语言模型的一些内容,熟悉的跳过。

单向语

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值