1 理论理解
1.1 注意力机制(Attention)
注意力机制很像人类看图片的逻辑,当我们看一张图片的时候,我们并没有看图片的全部内容,而是将注意力集中在了图片的焦点上。用上了注意力机制,信息(如下面的图片)就不在单纯是信息本身,而是附加了焦点。
1.2 注意力机制的实现
运用注意力机制处理信息就是将信息和关注的维度点乘,或者说将信息投影到关注的维度。比如一件商品有质量,价格,颜色,外形,生产商,发货地点等信息,但是你特别关注商品的价格,那么所有商品的所有信息投影到你的需求上,基本只有价格影响你买还是不买。

文章介绍了注意力机制的概念,将其比作人类看图时的聚焦过程。自注意力机制用于发现信息内部的关联,而多头自注意力则通过多个角度对信息进行解构和重组。文章还提供了因果自注意力的背景,解释了其在生成模型中的作用。最后,通过一个CausalSelfAttention类的代码示例展示了如何在实践中实现自注意力机制。
最低0.47元/天 解锁文章
709

被折叠的 条评论
为什么被折叠?



