【电商推荐】单个注意力层能学到什么？通过随机特征的视角进行研究

最新推荐文章于 2025-05-03 23:34:32 发布

sp_fyf_2024

最新推荐文章于 2025-05-03 23:34:32 发布

阅读量1k

点赞数 24

分类专栏：电商推荐技术文章标签：机器学习深度学习神经网络数据挖掘人工智能

本文链接：https://blog.youkuaiyun.com/fyf2007/article/details/144651765

版权

电商推荐技术专栏收录该内容

6 篇文章

订阅专栏

【电商推荐】单个注意力层能学到什么？通过随机特征的视角进行研究

文章信息

在这里插入图片描述
单个注意力层能学到什么？通过随机特征的视角进行研究
https://arxiv.org/pdf/2307.11353

摘要

本文对单个多头注意力层的学习和泛化能力进行了严格的理论研究。注意力层是Transformer架构的核心构建块，在现代人工智能中取得了重大突破。文章考虑了随机特征设置，其中注意力层具有大量头，随机采样的冻结查询和键矩阵，以及可训练的值矩阵。研究表明，这种随机特征注意力层能够表达广泛的目标函数，这些函数对键向量是排列不变的。文章进一步为使用有限头数的随机特征注意力学习这些目标函数提供了量化的超额风险界限。研究结果有几个独特之处，与现有的神经网络随机特征理论相比，例如：(1) 与标准两层随机特征网络相比，在样本复杂性上的优势；(2) 随机特征注意力层能够有效学习的特定和自然函数类别；(3) 查询-键权重矩阵（查询和键矩阵的乘积）的采样分布的影响，其中具有非零均值的高斯随机权重在学习某些自然目标函数时比零均值对应物具有更好的样本复杂性。模拟数据上的实验验证了理论发现，并进一步说明了样本大小与目标函数复杂性之间的相互作用。

研究背景

Transformer架构在人工智能的多个领域，如视觉、语言、语音、图处理、强化学习等领域取得了显著的成功。注意力层作为Transformer的核心，允许输入序列中的每个标记“关注”与当前标记最相关的其他标记，并根据这些标记产生输出。尽管注意力层具有广泛的应用性，但其理论属性尚不清楚。尽管多层注意力网络（Transformer）已被证明是某些类别函数的通用近似器，例如等变序列到序列函数，但这些结果只关注表达能力，并未考虑从有限样本中学习。另一系列工作推导了多层Transformer学习的泛化界限，这些界限以层数、头数和权重范数为条件，但结果要么针对特定目标函数，要么泛化但难以捉摸的函数类别，如图灵机。对于更基本的构建块——单个注意力层的理解仍然有限。这与全连接神经网络的情况形成鲜明对比，对于两层神经网络在一般和自然函数类别上的学习和泛化已经有了相当的理解。