44、序列到序列模型中的注意力机制与自注意力机制

wind

于 2025-08-21 14:41:05 发布

阅读量43

点赞数

CC 4.0 BY-SA版权

分类专栏： PyTorch深度学习入门指南文章标签：序列到序列模型注意力机制多头注意力

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/wind/article/details/151166522

PyTorch深度学习入门指南专栏收录该内容

58 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

序列到序列模型中的注意力机制与自注意力机制

1. 注意力机制的效果评估

1.1 损失可视化

绘制带有注意力机制的编码器和解码器的损失图，发现其损失比之前没有注意力机制的模型低了一个数量级，这表明模型表现出了良好的潜力。

fig = sbs_seq_attn.plot_losses()

1.2 预测可视化

通过绘制预测坐标和实际坐标，使用虚线连接预测坐标，实线连接实际坐标，发现新模型的预测效果有了显著提升，没有出现角点重叠的问题，说明模型确实在关注关键信息。

fig = sequence_pred(sbs_seq_attn, full_test, test_directions)

1.3 注意力分数可视化

查看模型的注意力分数（存储在 alphas 属性中），可以了解模型在处理不同序列时关注的重点。以训练集中的第一个序列为例：

inputs = full_train[:1, :2]
out = sbs_seq_attn.predict(inputs)
print(sbs_seq_attn.model.alphas)

输出结果如下：

tensor([[[0.8196, 0.1804],
         [0.7316, 0.2684]

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。