其是想在attention上做一些改变,我们可以把他想成是动态的移动我们的window。
here?:吃两个输入,z0和h,输出Yes/No,选择是否将window放在这里,如果No的话往右移动。


在此window内做attention,一个window输出一个token,不输出null



本文介绍了一种改进的Attention机制——动态Window Attention。该方法通过引入一个判断机制来决定是否将注意力窗口放置在当前位置,若不合适则向右移动。在选定的窗口内进行Attention操作,并输出一个token。
其是想在attention上做一些改变,我们可以把他想成是动态的移动我们的window。
here?:吃两个输入,z0和h,输出Yes/No,选择是否将window放在这里,如果No的话往右移动。


在此window内做attention,一个window输出一个token,不输出null



1341
1288
1566
1507

被折叠的 条评论
为什么被折叠?