李沐65_注意力分数——自学笔记

Rrrrrr900

于 2024-04-24 18:01:30 发布

阅读量664

点赞数 6

文章标签：深度学习 pytorch 机器翻译人工智能 python 注意力机制注意力分数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/Rrrrrr900/article/details/138166008

版权

Additive Attention

等价于将key和value合并起来后放入到一个隐藏大小为h输出大小为1的单隐藏层

总结

1.注意力分数是query和key的相似度，注意力权重是分数的softmax结果

2.两种常见的分数计算:

（1）将query和key合并起来进入一个单输出单隐藏层的MLP

（2）直接将query和key做内积

注意力打分函数

!pip install d2l

import math
import torch
from torch import nn
from d2l import torch as d2l

masked_softmax函数实现了这样的掩蔽softmax操作（masked softmax operation），其中任何超出有效长度的位置都被掩蔽并置为0。

def masked_softmax(X, valid_lens):
    """通过在最后一个轴上掩蔽元素来执行softmax操作"""
    # X:3D张量，valid_lens:1D或2D张量
    if valid_lens is None:
        return nn.functional.softmax(X, dim=-1)
    else:
        shape = X.shape
        if valid_lens.dim() == 1:
            valid_lens = torch.repeat_interleave(valid_lens, shape[1])
        else:
            valid_lens = valid_lens.reshape(-1)
        # 最后一轴上被掩蔽的元素使用一个非常大的负值替换，从而其softmax输出为0
        X = d2l.sequence_mask(X.reshape(-1, shape[-1]), valid_lens,
                              value=-1e6)
        return nn.functional.softmax(X.reshape(shape), dim=-1)

考虑由两个2X4
矩阵表示的样本，这两个样本的有效长度分别为2
和3
。经过掩蔽softmax操作，超出有效长度的值都被掩蔽为0。

masked_softmax(torch.rand(2, 2<

最低0.47元/天解锁文章

博客等级

码龄6年

64
原创

834
点赞

450
收藏

693
粉丝

关注

私信

热门文章

最新评论

李沐16神经网络基础——自学笔记
优快云-Ada助手: 恭喜作者发布了第14篇博客！不断学习和分享知识是非常值得赞赏的。建议下一步可以尝试深入探讨一些实际案例，结合自己的理解和经验，给读者更多启发和思考。希望您能继续坚持创作，加油！谦虚谨慎地学习和分享是我们不断成长的不竭动力。
李沐测试15-California房价预测测试
优快云-Ada助手: 恭喜李沐测试15在博客中分享了关于California房价预测的测试内容！持续创作是提升自己技能的不二选择，相信您的努力一定会有所收获。希望在下一篇博客中，可以深入探讨一些实际案例，或者结合更多的数据分析方法，以丰富内容吸引更多读者的关注。期待您的下一篇作品！加油！
李沐14数值稳定性_模型初始化和激活函数——自学笔记
优快云-Ada助手: 恭喜用户在自学笔记中分享了关于李沐14数值稳定性、模型初始化和激活函数的内容。持续创作对于个人学习和分享经验都是非常有益的，希望您能继续坚持下去，为更多人带来知识的启发和帮助。建议您在下一篇博客中可以深入探讨一些实际案例，结合具体的应用场景进行分析，这样可以让读者更加直观地理解相关概念。期待您的更多精彩内容！
李沐15实战Kaggle比赛_预测房价——自学笔记
优快云-Ada助手: 恭喜您发布了第12篇博客！看到您在自学笔记中分享了李沐15实战Kaggle比赛预测房价的经验，让人深感佩服。希望您能继续坚持创作，不断提升自己的技术水平。下一步，可以考虑分享更多具体的数据分析案例，或者挑战更多不同领域的Kaggle比赛，拓展自己的技术视野。期待看到您更多精彩的文章！
李沐06 矩阵计算
优快云-Ada助手: 恭喜用户写了第三篇博客，标题为“李沐06 矩阵计算”！持续创作是提升自己的最好方式，希望用户能够坚持下去，不断分享自己的学习和经验。下一步建议可以尝试写一些实践性更强的文章，比如结合具体案例进行分析和总结，这样能够更好地帮助读者理解和应用知识。期待用户更加优秀的作品！愿用户在创作的路上越走越远！优快云正在通过评论红包奖励优秀博客，请看红包流：https://bbs.youkuaiyun.com/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。