先从self-attention说起:





机器翻译,语音辨识
我们先说第一种情况:一对一的情况


一个很大的window(比如cover整个sequence)会导致参数过多,同时也会过拟合


本文探讨了自注意力在机器翻译和语音识别中的作用,特别是如何解决窗口过大导致的问题。介绍了self-attention如何计算向量之间的相关性,以及加入位置信息改进模型性能的过程。重点讲述了Transformer编码器的结构,包括多层block和使用位置编码。最后概述了模型训练和自注意力在编码器中的应用。
先从self-attention说起:





机器翻译,语音辨识
我们先说第一种情况:一对一的情况


一个很大的window(比如cover整个sequence)会导致参数过多,同时也会过拟合



被折叠的 条评论
为什么被折叠?