Connecting Test Time Predictions to Training Patterns via Spotlights of Attention

最新推荐文章于 2026-01-08 20:27:01 发布

原创最新推荐文章于 2026-01-08 20:27:01 发布 · 138 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习 #人工智能 #神经网络

深度学习专栏收录该内容

13 篇文章

订阅专栏

本文探讨了神经网络中线性层的对偶形式，揭示其与注意力机制的关系，通过实验展示了如何通过注意力权重理解网络在测试时利用训练模式。尽管存在数据集大小限制和分析局限，这一新视角为理解神经网络行为提供了新途径。

本文是NN相关文章，针对《The Dual Form of Neural Networks Revisited: Connecting Test Time Predictions to Training Patterns via Spotlights of Attention》的翻译。

摘要

通过梯度下降训练的神经网络（NN）中的线性层可以表示为键值记忆系统，该系统存储所有训练数据点和初始权重，并在整个训练体验中使用未规范化的点注意力产生输出。虽然自20世纪60年代以来，这在技术上就已经为人所知，但之前没有任何工作以这种形式有效地研究神经网络的操作，可能是由于令人望而却步的时间和空间复杂性以及不切实际的模型大小，所有这些都随着可能变得非常大的训练模式的数量而线性增长。然而，这种对偶公式提供了一种可能性，可以通过检查相应的注意力权重，直接可视化神经网络如何在测试时利用训练模式。我们在单任务、多任务和连续学习环境中对小规模监督图像分类任务以及语言建模进行了实验，并讨论了这种观点的潜力和局限性，以更好地理解和解释神经网络如何利用训练模式。我们的代码是公开的。

1 引言

2 前言

3 梯度下降训练神经网络中线性层的对偶形式

4 相关工作

5 实验

6 讨论与局限性

对偶公式允许在给定测试输入的情况下，明确地可视化所有训练模式的注意力权重。虽然我们认为这种观点为分析神经网络提供了一个新的视角，但它也有几个局限性。首先，内存存储需求迫使我们使用小型数据集进行实验（更多讨论见附录D）。另一方面，存储需求随着训练集的大小而线性增长，而计算硬件仍然随着时间的推移而成倍地便宜。也就是说，很快我们就可以分析在更大的数据集上训练的更大的模型。其次，我们的分析不适用于已经训练好的模型。此外，它仅限于注意力权重的研究，与基于注意力的系统的传统可视化一致，并且只能显示哪些训练数据点是组合的。它没有说明如何将组合表示转换为有意义的输出，例如，在引言中提到的大型生成NN的情况下。

7 结论

我们重新讨论了深度神经网络中线性层的感知器的对偶形式。对偶形式用现在流行的关键/价值/注意力概念来表达，它提供了新颖的见解和可解释性。我们可视化并研究相应的注意力权重。这允许将训练数据点连接到测试时间预测，并在图像和语言模态上观察各种场景中的许多有趣模式。虽然我们的分析仍然局限于相对较小的数据集，但它为分析和解释深层神经网络的行为开辟了新的途径。