64 注意力机制_by《李沐：动手学深度学习v2》pytorch版

最新推荐文章于 2025-12-04 14:13:28 发布

原创

最新推荐文章于 2025-12-04 14:13:28 发布 · 1.1k 阅读

12 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习 #pytorch #人工智能

系列文章目录

文章目录

系列文章目录
注意力机制（或叫注意力池化）

注意力机制（或叫注意力池化）

卷积、全连接、池化层都只考虑不随意(不随着自己的意愿，是下意识得行为）线索，也就都是非自主性得。
注意力机制则显示的考虑随意（随着自己的主观意识）线索，随意线索被称之为查询(query)每个输入是一个值(value)和不随意线索(key)的对。通过注意力池化层来有偏向性的选择选择某些输入。
在这里插入图片描述
上节介绍了框架下的注意力机制的主要成分 :numref:fig_qkv：
查询（自主提示）和键（非自主提示）之间的交互形成了注意力汇聚；
注意力汇聚有选择地聚合了值（感官输入）以生成最终的输出。
本节将介绍注意力汇聚的更多细节，
以便从宏观上了解注意力机制在实践中的运作方式。
具体来说，1964年提出的Nadaraya-Watson核回归模型
是一个简单但完整的例子，可以用于演示具有注意力机制的机器学习。

import torch
from torch import nn
from d2l import torch as d2l

[生成数据集]

简单起见，考虑下面这个回归问题：
给定的成对的“输入－输出”数据集
$\{(x_1, y_1), \ldots, (x_n, y_n)\}$ ，
如何学习 $f$ 来预测任意新输入 $x$ 的输出 $\hat{y} = f(x)$ ？

根据下面的非线性函数生成一个人工数据集，
其中加入的噪声项为 $\epsilon$ ：

$y_i = 2\sin(x_i) + x_i^{0.8} + \epsilon,$

其中 $\epsilon$ 服从均值为 $0$ 和标准差为 $0.5$ 的正态分布。
在这里生成了 $50$ 个训练样本和 $50$ 个测试样本。
为了更好地可视化之后的注意力模式，需要将训练样本进行排序。

n_train = 50  # 训练样本数
x_train, _ = torch.sort(torch.rand(n_train) * 5)   # 排序后的训练样本

def f(x):
    return 2 * torch.sin(x) + x**0.8

y_train = f(x_train) + torch.normal(0.0, 0.5, (n_train,))  # 训练样本的输出
x_test = torch.arange(0, 5, 0.1)  # 测试样本
y_truth = f(x_test)  # 测试样本的真实输出
n_test = len(x_test)  # 测试样本数
n_test

下面的函数将绘制所有的训练样本（样本由圆圈表示），
不带噪声项的真实数据生成函数 $f$ （标记为“Truth”），
以及学习得到的预测函数（标记为“Pred”）。

def plot_kernel_reg(y_hat):
    d2l.plot(x_test, [y_truth, y_hat], 'x', 'y', legend=['Truth', 'Pred'],
             xlim=[0, 5], ylim=[-1, 5])
    d2l.plt.plot(x_train, y_train, 'o', alpha=0.5);

平均汇聚

先使用最简单的估计器来解决回归问题。
基于平均汇聚来计算所有训练样本输出值的平均值：

$\frac{1}{n}\sum_{i=1}^n y_i,$
:eqlabel:eq_avg-pooling

如下图所示，这个估计器确实不够聪明。
真实函数 $f$ （“Truth”）和预测函数（“Pred”）相差很大。

y_hat = torch.repeat_interleave(y_train.mean(), n_test)
plot_kernel_reg(y_hat)

在这里插入图片描述

非参数注意力汇聚

显然，平均汇聚忽略了输入 $x_i$ 。
于是Nadaraya :cite:Nadaraya.1964和
Watson :cite:Watson.1964提出了一个更好的想法，
根据输入的位置对输出 $y_i$ 进行加权：

$\sum_{i=1}^n \frac{K(x - x_i)}{\sum_{j=1}^n K(x - x_j)} y_i,$

最低0.47元/天解锁文章