自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

wuyuanli_r的博客

吴云理优快云认证博客专家优快云认证企业博客

码龄3年

20: 原创

85万+: 周排名

49万+: 总排名

2万+: 访问

: 等级

205: 积分

1: 粉丝

4: 获赞

2: 评论

38: 收藏

私信

关注

热门文章

分类专栏

最新评论

Deep Set
lee_LLL: 感谢大佬分享，请问deep sets后更新的处理方式吗？

低秩分解

关注

文章平均质量分 86

关注数：文章数：1 文章阅读量：1920 文章收藏量：1

作者: 吴云理

喜欢自然语言处理的菜鸟, 会一点拓扑数据分析.

展开

低秩自注意力

自注意力一般是低秩的, 证明参考Linformer: Self-Attention with Linear Complexity 定理 1.这也比较容易猜测出来. 因为文本词汇大多数依赖于自己距离很近的词汇, 较少依赖距离较远的词汇.这意味着可以使用两个矩阵逼近 WQW^QWQ 或者 WKW^KWK. 其中一个矩阵是带状矩阵, 另一个是稀疏低秩矩阵. 明显带装矩阵只有下图蓝色部分需要确定, 其余为0. 低秩矩阵可以看成是小矩阵的乘积.假定正常注意力机制权重矩阵为A:=HWQ(WK)THT,

原创 2022-01-04 11:27:44 · 1920 阅读 · 0 评论