【电商推荐】单个注意力层能学到什么?通过随机特征的视角进行研究
目录
文章目录
文章信息
单个注意力层能学到什么?通过随机特征的视角进行研究
https://arxiv.org/pdf/2307.11353
摘要
本文对单个多头注意力层的学习和泛化能力进行了严格的理论研究。注意力层是Transformer架构的核心构建块,在现代人工智能中取得了重大突破。文章考虑了随机特征设置,其中注意力层具有大量头,随机采样的冻结查询和键矩阵,以及可训练的值矩阵。研究表明,这种随机特征注意力层能够表达广泛的目标函数,这些函数对键向量是排列不变的。文章进一步为使用有限头数的随机特征注意力学习这些目标函数提供了量化的超额风险界限。研究结果有几个独特之处,与现有的神经网络随机特征理论相比,例如:(1) 与标准两层随机特征网络相比,在样本复杂性上的优势;(2) 随机特征注意力层能够有效学习的特定和自然函数类别;(3) 查询-键权重矩阵(查询和键矩阵的乘积)的采样分布的影响,其中具有非零均值的高斯随机权重在学习某些自然目标函数时比零均值对应物具有更好的样本复杂性。模拟数据上的实验验证了理论发现,并进一步说明了样本大小与目标函数复杂性之间的相互作用。
研究背景
Transformer架构在人工智能的多个领域,如视觉、语言、语音、图处理、强化学习等领域取得了显著的成功。注意力层作为Transformer的核心,允许输入序列中的每个标记“关注”与当前标记最相关的其他标记,并根据这些标记产生输出。尽管注意力层具有广泛的应用性,但其理论属性尚不清楚。尽管多层注意力网络(Transformer)已被证明是某些类别函数的通用近似器,例如等变序列到序列函数,但这些结果只关注表达能力,并未考虑从有限样本中学习。另一系列工作推导了多层Transformer学习的泛化界限,这些界限以层数、头数和权重范数为条件,但结果要么针对特定目标函数,要么泛化但难以捉摸的函数类别,如图灵机。对于更基本的构建块——单个注意力层的理解仍然有限。这与全连接神经网络的情况形成鲜明对比,对于两层神经网络在一般和自然函数类别上的学习和泛化已经有了相当的理解。
问题与挑战
本文旨在解决以下问题:具有良好样本复杂性的单个注意力层能学习哪些函数类别?这个问题通过研究随机特征设置中的单个注意力层的学习和泛化能力来取得进展,在该设置中,查询和键矩阵被固定在其随机初始化,而值矩阵仍然是可学习的参数。
如何解决
文章通过以下步骤解决上述问题:
- 理论分析:文章首先对随机特征注意力层(RFA模型)的表达能力进行了理论分析,证明了其能够表达广泛的目标函数类别。
- 样本复杂性:文章推导出了使用RFA模型学习目标函数的样本复杂性,即学习这些目标函数所需的样本数量。
- 随机特征模型:文章考虑了随机特征版本的注意力机制,其中权重矩阵具有独立同分布的高斯条目。
- 实验验证:通过模拟数据上的实验来验证理论发现,并探讨样本大小与目标函数复杂性之间的关系。
创新点
- 随机特征注意力层:提出了随机特征注意力层的概念,并分析了其表达能力和泛化性能。
- 样本复杂性分析:为使用随机特征注意力层学习特定目标函数提供了量化的超额风险界限。
- 查询-键权重矩阵的分布影响:研究了查询-键权重矩阵的采样分布对学习性能的影响,特别是非零均值高斯随机权重的优势。
- 理论与实验相结合:不仅提供了理论分析,还通过实验验证了理论发现,并探讨了样本大小与目标函数复杂性之间的关系。
算法模型
随机特征注意力层(RFA模型)
RFA模型是一个简化的注意力模型,它接受单个查询标记和N个键标记作为输入,并产生标量值输出。模型通过随机采样的查询和键矩阵以及可训练的值矩阵来表达目标函数。
偏差随机特征注意力模型(BRFA模型)
BRFA模型是RFA模型的扩展,其中查询-键矩阵的分布具有非零均值,这与实际Transformer架构中观察到的权重矩阵相似。
实验效果
重要数据与结论
实验结果表明,RFA和BRFA模型在模拟数据上能够有效地近似目标函数,并且BRFA模型在某些情况下比RFA模型具有更好的样本复杂性。具体来说,BRFA模型在近似相关性加权函数时表现优于RFA模型,这与理论分析相符。
推荐阅读指数:★★★★☆
后记
如果您对我的博客内容感兴趣,欢迎三连击(点赞,关注和评论),我将持续为您带来计算机人工智能前沿技术(尤其是AI相关的大语言模型,深度学习,计算机视觉相关方向)最新学术论文及工程实践方面的内容分享,助力您更快更准更系统地了解 AI前沿技术。