传统的Encoder-Decoder
1、在编码的时候,接收输入X=⟨x1,x2,…,xT⟩X=⟨x1,x2,…,xT⟩,生成context vector CC
2、训练阶段,在解码的时候2.1、从出发预测ŷ 1y^1,再依次用ŷ i−1y^i−1预测ŷ iy^i,即使用预测的Ŷ Y^而不是真实值YY,这样的做法就是让模型自己去学习。这样容易产生误差累积的问题,导致模型学习收敛比较慢。
2.2、如果每次使用真实值的来作为输入生成预测值ŷ iy^i,这样的做法就是teacher forcing,也就是加入教师强制指导,这样的好处就是更快的收敛,但是更偏向于单个正确值预测,而在测试的时候这种教师信息是没有的,因此可能导致模型的泛化能力不够。3、因此可以设定一个比例,作为两种方式的折中
本文探讨了传统Encoder-Decoder模型的工作原理,包括编码阶段如何生成context vector,并详细解释了解码阶段采用预测值反馈和教师强制指导两种不同策略及其优缺点。
735

被折叠的 条评论
为什么被折叠?



