在RNN中,存在两种训练模式:
1、free-running mode:上一个state的输出作为下一个state的输入
2、teacher-forcing mode:ground truth作为下一state的输入,而不是将上一state的输出作为下一state的输入。这样可以避免在某个state出现错误,导致后面的都错了。
体现到transformer中,就是decoder的输入是全部目标序列(ground truth),尽管前一步可能出现错误,这一步仍然要输入正确的。
auto regressive:仅根据过去的预测对未来进行预测。
参考博客:
https://www.cnblogs.com/dangui/p/14690919.html
https://blog.youkuaiyun.com/flyfish1986/article/details/137923037
https://zhuanlan.zhihu.com/p/425667693
如有错误,请多指教!欢迎交流!