关注gongzhonghao【学术鲸】,解锁更多SCI相关资讯!
傅里叶变换与注意力机制的结合,无疑是当下科研界的“新晋顶流”!它巧妙地攻克了AI模型两大难题:长程依赖建模的低效性以及复杂信号特征捕捉的不足,其应用前景广阔且价值显著。自清华团队的FoPE等成果在ICML 2025亮相后,这一组合迅速成为顶会顶刊的宠儿,因其“故事性”强、创新点多样,备受青睐。
然而,随着研究的深入,单纯的通用架构探索已不再是主流。如今,深入垂直领域、针对具体问题提出创新解决方案,才是吸引审稿人眼球的关键。比如,在图像处理领域,定制滤波器结合傅里叶变换和注意力机制,能快速取得突破性成果;而在跨域学习中,尝试频域对齐则有望冲击更高水平的研究。目前,这一方向尚未饱和,正是深耕细作、静待花开的好时机!
AnEnd-to-End Transformer Model for 3D Object Detection
方法:
文章首先将三维点云数据输入到一个经过改进的Transformer编码器中,通过多层自注意力机制提取点云的特征表示。然后,利用非参数化查询嵌入和傅里叶位置编码,将这些特征传递到Transformer解码器中,解码器通过并行解码策略预测三维边界框。最后,通过集合匹配损失函数优化模型,确保预测框与真实框之间的一一对应关系,从而实现高效的三维目标检测。

创新点:
-
提出了一种端到端的Transformer模型3DETR,仅使用标准的Transformer模块和少量修改即可实现高效的三维目标检测,无需复杂的三维特定操作。
-
引入非参数化查询嵌入和傅里叶位置编码,解决了三维点云数据稀疏性和不规则性带来的挑战,显著提升了检测性能。
-
设计了一种灵活的模型框架,可以通过简单地调整解码器层数或查询点数量来适应不同的计算资源限制,而无需重新训练模型。

论文链接:
https://arxiv.org/pdf/2109.08141
关注gongzhonghao【学术鲸】,获取傅里叶+注意力的最新选题和idea~
Fourier Position Embedding: Enhancing Attention’s Periodic Extension for Length Generalization
方法:
文章首先分析了RoPE在频率域中的特性,发现其周期性受到线性层和激活函数引入的频谱损伤的破坏。基于此,FoPE通过构建傅里叶级数来提取每个维度中的多频率信息,并通过零化未充分训练的频率分量来增强模型对频谱损伤的鲁棒性。实验表明,FoPE在预训练、持续预训练和微调阶段均能显著提升模型的长度泛化能力,同时在多种下游任务中表现出色。

创新点:
-
通过离散信号处理理论揭示了旋转位置嵌入(RoPE)在隐状态上隐式实现非均匀离散傅里叶变换(NUDFT)的过程,但其周期性受到频谱损伤的影响。
-
提出FoPE,通过将每个维度建模为傅里叶级数并零化破坏性的频率分量,增强了注意力机制的频率域特性,从而改善了周期扩展和长度泛化能力。
-
在多种模型规模和基准测试中验证了FoPE的有效性,证明其在不同上下文窗口内相较于其他基线方法具有更稳定的性能。

论文链接:
https://arxiv.org/pdf/2412.17739
关注gongzhonghao【学术鲸】,获取傅里叶+注意力的最新选题和idea~
Beyond-Labels: Advancing Open-Vocabulary Segmentation With Vision-Language Models
方法:
文章首先通过傅里叶嵌入将输入图像的位置信息编码为高频空间/频率特征,从而增强模型对图像的空间理解能力。接着,利用预训练的视觉和语言模型分别提取图像和文本的特征,并通过一个Transformer融合模块将两者特征进行融合,以实现视觉和文本信息的精确匹配。最后,通过计算每个像素与文本特征之间的余弦相似度来生成分割掩码,从而完成对图像中不同区域的语义分割。

创新点:
-
提出了一种轻量级的Transformer融合模块,能够高效地将预训练的视觉和语言模型结合起来,用于开放词汇语义分割任务,无需大量重新训练。
-
引入傅里叶嵌入来编码图像中的位置信息,与传统的预训练位置嵌入相比,傅里叶嵌入能够提供更平滑、更一致的空间编码,从而提高模型的泛化能力。
-
在PASCAL-5i数据集上进行了广泛的实验,证明了该方法在零样本学习场景下优于现有的基线模型,尤其是在处理未见过的类别时表现出色。

论文链接:
https://arxiv.org/pdf/2501.16769
► 论文发表难题,一站式解决!
TURING
选题是论文的第一步,非常重要!
但很多学生找到了热门的选题,却卡在代码和写作上!可见论文要录用,选题-idea-代码-写作都缺一不可!
图灵学术论文辅导,汇聚经验丰富的实战派导师团队,针对计算机各类领域提供1v1专业指导,直至论文录用!
关注gongzhonghao【学术鲸】,解锁更多SCI相关资讯!

被折叠的 条评论
为什么被折叠?



