深度学习“卷王”大比拼，从理论到实践的探索

原创已于 2025-08-14 16:52:17 修改 · 718 阅读

18 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习 #人工智能 #计算机视觉 #机器学习 #数据挖掘

于 2025-08-14 16:51:15 首次发布

论文拆解专栏收录该内容

41 篇文章

订阅专栏

部署运行你感兴趣的模型镜像

关注gongzhoghao【图灵学术SCI科研圈】，解锁更多SCI相关资讯！

如今，在快速发展的深度学习领域，处理复杂信号和多模态数据的需求日益增长。无论是音频信号、医学成像还是语音分离，这些应用都面临着如何高效处理复数或高维数据的挑战。近期的研究进展表明，将传统的实数神经网络架构扩展到复数域，以及开发专门针对多模态数据的高效模型，能够显著提升模型的性能和鲁棒性。

小图特带来这篇文章，深入探讨如何通过创新的网络架构和算法设计，突破传统方法的局限，为复杂信号处理和多模态学习开辟新的道路。

A MULTI-TASK LEARNING FOR CAVITATION DETECTION AND CAVITATION INTENSITY RECOGNITION OF VALVE ACOUSTIC SIGNALS

方法：

文章首先通过Swin-FFT方法对有限的样本数据进行增强，生成更多的训练样本以缓解小样本问题。接着，利用1-D DHRB结构自动从频域信号中提取敏感特征，避免了手动特征提取的复杂性和主观性。最后，通过构建的1-D DHRN网络，同时实现了空化检测和空化强度识别的多任务学习，通过共享隐藏层特征并分别优化两个任务的损失函数，显著提升了模型的性能。

创新点：

提出了一种基于滑动窗口和快速傅里叶变换（Swin-FFT）的数据增强方法，有效解决了小样本问题，显著提高了模型的泛化能力。
设计了一种一维双层残差块（1-D DHRB），通过大尺寸卷积核自动提取敏感特征，增强了模型对空化信号的特征捕捉能力。
构建了一种深度为18层的一维双层残差网络（1-D DHRN），实现了空化检测和空化强度识别的多任务学习，同时优化了两个任务的性能。

论文链接：

https://arxiv.org/pdf/2203.01118

关注gongzhoghao【图灵学术SCI科研圈】，获取深度学习最新选题和idea

RTFS-NET: RECURRENT TIME-FREQUENCY MODELLING FOR EFFICIENT AUDIO-VISUAL SPEECH SEPARATION

方法：

文章首先利用短时傅里叶变换（STFT）将音频信号转换为复数时频域表示，然后通过多层递归时频分离块（RTFS Blocks）独立处理时间和频率维度的特征。接着，通过跨维度注意力融合（CAF）模块将视觉特征与音频特征进行高效融合。最后，通过频谱源分离（S3）模块生成目标说话者的分离语音，并通过逆短时傅里叶变换（iSTFT）重建最终的音频信号。

创新点：

提出了一种独特的时频注意力重建（TF-AR）单元，通过在压缩子空间中独立建模时间和频率维度，实现了高效的音频特征处理，同时显著降低了计算成本。
引入了一种基于注意力的跨维度融合（CAF）技术，通过多头注意力机制高效整合音频和视觉信息，优化了目标说话者的音频特征融合。
设计了一种新的频谱源分离（S3）模块，利用复数乘法的性质，更好地保留了音频特征的幅度和相位信息，从而实现了更清晰的语音分离。

论文链接：

https://arxiv.org/pdf/2309.17189

关注gongzhoghao【图灵学术SCI科研圈】，获取深度学习最新选题和idea

BUILDINGBLOCKSFORACOMPLEX-VALUEDTRANSFORMERARCHITECTURE

方法：

文章首先定义了复数域的注意力机制，通过复数的点积和缩放操作来计算注意力权重，同时引入了多种变体以探索不同的实现方式。接着，文章提出了一种复数域的层归一化方法，通过计算复数的协方差矩阵来调整输出分布。最后，通过在MusicNet数据集上的实验，展示了复数Transformer架构在分类和序列生成任务中的性能，证明了其在处理复数信号时的有效性和鲁棒性。

创新点：

提出了一种复数域的缩放点积注意力机制，该机制通过复数的点积来衡量相似性，同时保留了复数的幅度和相位信息。
引入了一种复数域的层归一化方法，通过考虑复数的协方差矩阵来调整输出分布，确保了复数域的归一化效果。
在音乐分类和序列生成任务上验证了复数Transformer架构的性能，证明了其在保持性能的同时，对过拟合具有更好的鲁棒性。

论文链接：

https://arxiv.org/pdf/2504.14075

► 论文发表难题，一站式解决！

TURING

选题是论文的第一步，非常重要！

但很多学生找到了热门的选题，却卡在代码和写作上！可见论文要录用，选题-idea-代码-写作都缺一不可！

图灵学术论文辅导，汇聚经验丰富的实战派导师团队，针对计算机各类领域提供1v1专业指导，直至论文录用！

关注gongzhoghao【图灵学术SCI科研圈】，解锁更多SCI相关资讯！

您可能感兴趣的与本文相关的镜像

TensorFlow-v2.9

TensorFlow

TensorFlow 是由Google Brain 团队开发的开源机器学习框架,广泛应用于深度学习研究和生产环境。它提供了一个灵活的平台,用于构建和训练各种机器学习模型