特征融合这么做,竟能发Nature?!

2025深度学习发论文&模型涨点之——特征融合

在数据处理的最早阶段,将不同来源或类型的特征合并在一起。例如,对于多模态数据(如图像和文本),在将图像数据转换为特征向量(如通过卷积神经网络提取的图像特征)和文本数据转换为特征向量(如通过词嵌入和循环神经网络提取的文本特征)之后,直接将这两个特征向量拼接在一起。

    • 优点:能够充分利用不同模态数据之间的互补信息,模型可以学习到更丰富的特征表示。例如,在自动驾驶场景中,将车辆的传感器数据(如雷达数据和摄像头图像数据)进行早期融合,可以让车辆更准确地感知周围环境。

    • 缺点:由于是在特征提取后的初步阶段进行融合,可能会导致融合后的特征维度过高,增加模型的计算复杂度。而且如果不同模态数据的特征提取方法不够准确,融合后的特征可能会受到“污染”。

    小编整理了一些特征融合【论文】合集,以下放出部分,全部论文PDF版皆可领取。

    需要的同学扫码添加我

    回复“特征融合”即可全部领取

    图片

    论文精选

    论文1:

    HiFuse: Hierarchical Multi-Scale Feature Fusion Network for Medical Image Classification

    HiFuse:用于医学图像分类的层次多尺度特征融合网络

    方法

        • 三分支结构:提出HiFuse网络,包含局部特征块、全局特征块和HFF块,分别提取局部空间信息和全局语义信息,并进行特征融合。

          局部特征块:使用3×3深度卷积提取局部特征,通过线性层和激活函数进行信息交互。

          全局特征块:引入窗口多头自注意力机制(W-MSA),有效降低计算量,提取全局语义信息。

          HFF块:包含空间注意力、通道注意力、残差逆MLP和快捷连接,自适应融合不同层次的特征。

          图片

        创新点

                  • 融合CNN和Transformer优势:结合CNN的局部特征提取能力和Transformer的全局语义建模能力,显著提升医学图像分类性能。

                    层次多尺度特征融合:通过HFF块融合不同尺度的局部和全局特征,全面挖掘病变区域的深浅和全局局部特征,提升分类精度。

                    性能提升:在ISIC2018、Covid-19和Kvasir数据集上,HiFuse模型的准确率分别比基线提高了7.6%、21.5%和10.4%,优于其他先进模型。

                    图片

                  论文2:

                  Multi-interactive Feature Learning and a Full-time Multi-modality Benchmark for Image Fusion and Segmentation

                  多交互特征学习和全天时多模态基准测试用于图像融合与分割

                  方法

                      • SegMiF架构:提出SegMiF,包含融合子网络和分割子网络,通过层次交互注意力(HIA)模块连接两个网络,实现特征交互。

                        层次交互注意力(HIA):通过语义/模态多头注意力机制,同时保留模态特征并增强语义特征。

                        动态权重因子:引入动态权重因子自动调整每个任务的权重,平衡特征交互,避免手动调整。

                        多模态基准测试(FMB):构建智能多波段双目成像系统,收集包含15个像素级标注类别的全天时多模态基准测试数据集。

                        图片

                      创新点

                                • 联合优化融合与分割:首次将图像融合和语义分割联合优化,通过交互特征学习实现“两全其美”,在真实场景中分割mIoU平均提升7.66%。

                                  层次交互注意力:通过HIA模块实现融合网络和分割网络之间的细粒度特征映射,增强语义特征的同时保留模态特征。

                                  动态权重因子:自动学习每个任务的最优权重,避免手动调整,提升模型在融合和分割任务上的性能。

                                  全面基准测试:FMB数据集包含丰富场景和多种恶劣环境,为多模态图像融合和分割研究提供全面基准。

                                  图片

                                论文3:

                                SecondPose: SE(3)-Consistent Dual-Stream Feature Fusion for Category-Level Pose Estimation

                                SecondPose:用于类别级姿态估计的SE(3)一致性双流特征融合

                                方法

                                • DINOv2特征提取:利用DINOv2提取语义特征,提供类别先验信息。

                                  几何特征提取:基于点对特征(PPF)计算层次几何特征,从局部到全局编码物体结构信息。

                                  SE(3)一致性融合:将几何特征与DINOv2特征对齐,建立SE(3)变换下一致的对象表示。

                                  姿态估计:将融合后的特征输入姿态估计器,预测物体的6D姿态和3D尺寸。

                                  图片

                                创新点

                                          • 融合语义与几何特征:首次将DINOv2的语义特征与几何特征融合,提升类别级姿态估计性能。

                                            SE(3)一致性表示:通过几何特征对齐,建立SE(3)变换下一致的对象表示,简化姿态估计过程,提升准确性和效率。

                                            性能提升:在NOCS-REAL275数据集上,SecondPose的平均精度(mAP)比之前最佳方法提升了12.4%,在HouseCat6D数据集上也大幅领先。

                                          图片


                                          论文4:

                                          Time-space-frequency feature Fusion for 3-channel motor imagery classification

                                          3通道运动想象分类的时间-空间-频率特征融合

                                          方法

                                            • 时间-频率表示:使用连续小波变换(CWT)将EEG信号转换为时间-频率谱图。

                                              时间-频率特征提取:设计轻量级网络TSFF-img,提取时间-频率谱图中的特征。

                                              时间-空间特征提取:基于LMDA-Net架构,提取时间序列EEG信号的时间-空间特征。

                                              特征融合与分类:通过MMD损失和加权融合方法,将时间-频率特征和时间-空间特征结合,进行分类。

                                              图片

                                            创新点

                                                • 多模态特征融合:提出TSFF-Net,融合时间-空间-频率特征,弥补单一模态特征提取网络的不足。

                                                  轻量级网络设计:TSFF-img网络轻量且浅层,适合从EEG时间-频率谱图中提取特征,性能优于AlexNet、VGG和ResNet。

                                                  性能提升:在BCI4-2A和BCI4-2B数据集上,TSFF-Net的分类准确率高于其他先进方法,仅用3个通道就超过部分基于22个通道的方法。

                                                  图片

                                                小编整理了特征融合文代码合集

                                                需要的同学扫码添加我

                                                回复“ 多特征融合”即可全部领取

                                                图片

                                                评论
                                                添加红包

                                                请填写红包祝福语或标题

                                                红包个数最小为10个

                                                红包金额最低5元

                                                当前余额3.43前往充值 >
                                                需支付:10.00
                                                成就一亿技术人!
                                                领取后你会自动成为博主和红包主的粉丝 规则
                                                hope_wisdom
                                                发出的红包
                                                实付
                                                使用余额支付
                                                点击重新获取
                                                扫码支付
                                                钱包余额 0

                                                抵扣说明:

                                                1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
                                                2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

                                                余额充值