- 博客(16)
- 收藏
- 关注
原创 【TPAMI 2025|Cross-Modality Distillation for Multi-Modal Tracking】
本文提出CMD框架解决RGB-T跟踪中模型压缩带来的性能下降问题。教师模型采用基于Transformer的双流结构,包含单模态特征提取、跨模态交互和预测头模块。学生模型采用早期融合结构,通过多路径融合(MPF)模块实现高效特征融合。实验表明,将202M参数的教师模型压缩到6.2M时,CMD框架能有效弥补跟踪精度从70.5%降至63.5%的性能差距,同时保持128FPS的高速推理。该工作为平衡模型大小、速度和精度提供了新思路。
2025-09-18 16:56:21
1048
原创 【论文阅读|V2M: VISUAL 2-DIMENSIONAL MAMBA FOR IMAGE REPRESENTATION LEARNING】
论文题目:V2M: VISUAL 2-DIMENSIONAL MAMBA FOR IMAGE REPRESENTATION LEARNING年份:2024期刊会议: arXiv代码链接:未开源。
2025-08-03 15:27:12
831
原创 【论文阅读|SPATIAL-MAMBA: EFFECTIVE VISUAL STATE SPACE MODELS VIA STRUCTURE-AWARE STATE FUSION】
论文题目:SPATIAL-MAMBA: EFFECTIVE VISUAL STATE SPACE MODELS VIA STRUCTURE-AWARE STATE FUSION年份:2024期刊会议: arXiv预发表代码链接:https://github.com/EdwardChasel/Spatial-Mamba。
2025-08-03 12:08:00
1013
1
原创 【CVPR|DefMamba: Deformable Visual State Space Model】
摘要:2025年CVPR论文《DefMamba: Deformable Visual State Space Model》提出了一种新型视觉基础模型DefMamba,通过可变形扫描策略(DS)解决传统Mamba方法因固定扫描路径导致图像结构信息丢失的问题。该模型动态调整扫描路径,结合点偏移和索引偏移机制,并引入可变形状态空间模型(DSSM)与多尺度骨干结构,显著提升了对图像细节和结构的感知能力。在ImageNet-1K分类任务中,DefMamba-T/S/B分别达到78.6%、83.5%和84.2%的Top
2025-08-03 11:53:26
1142
3
原创 【论文阅读|ICLR 2022|MONODISTILL: LEARNING SPATIAL FEATURES FOR MONOCULAR 3D OBJECT DETECTION】
因此,对于一个真实目标框,生成一个类似高斯分布的掩码,收集掩码内的响应值并计算响应蒸馏损失。此外,和特征蒸馏一样,当教师模型的性能弱于学生模型(例如教师为相机,学生为 LiDAR)时,我们在学生的高级特征。上提取这些关键点的特征,并计算它们之间的相互关系,从而构建一个关系矩阵,其大小为。,我们计算教师模型和学生模型在该点特征上的差异,构成特征蒸馏损失。通过这种方式,我们获得教师和学生模型的响应特征,分别记为。在特征蒸馏中,只对前景目标的特征进行对齐,并为每个目标。
2025-06-29 18:55:59
2311
1
原创 【论文阅读|ICLR|BEVDISTILL: CROSS-MODAL BEV DISTILLATION FOR MULTI-VIEW 3D OBJECT DETECTION】
BEV 表示是一种从“鸟瞰视角”来看待三维世界的表示方法。它将场景投影到 XY 平面(地面平面),忽略高度(或作为通道处理),简化了空间建模。点云在 3D 空间中为xyz(x, y, z)xyz;投影后变为 BEV 坐标xy(x, y)xy,可附带高程、高度、强度等信息作为通道。
2025-06-23 20:00:16
1249
1
原创 【论文阅读|CVPR|DeblurGAN: Blind Motion Deblurring Using Conditional Adversarial Networks】
题目:DeblurGAN: Blind Motion Deblurring Using Conditional Adversarial Networks期刊:CVPR年份:2018代码链接:https://github.com/KupynOrest/DeblurGANIB=k(M)∗IS+NI_B = k(M) \ast I_S + NIB=k(M)∗IS+N含义:解释:minGmaxD(Ex∼Pr[logD(x)]+Ex~∼Pg[log(1−D(x~))])\min_G \max_
2025-06-08 19:07:25
1178
1
原创 【论文阅读|NeurIPS 2020|扩散模型|《Denoising Diffusion Probabilistic Models》】
扩散模型是一种基于马尔可夫链的生成模型。
2025-05-25 19:54:15
2169
1
原创 【论文阅读|CVPR|RKD&FSP蒸馏】
本文探讨了知识蒸馏(Knowledge Distillation, KD)在深度学习中的应用,重点介绍了两种蒸馏方法:基于FSP矩阵的蒸馏和关系蒸馏(Relational Knowledge Distillation, RKD)。FSP矩阵通过捕捉神经网络中不同层之间的特征流动信息,将教师网络的知识传递给学生网络,其损失函数基于FSP矩阵的L2范数差异。RKD则通过样本之间的结构关系(如距离和角度)来传递知识,使用距离势函数和角度势函数分别计算样本对和样本三元组之间的关系,并通过Huber Loss度量学生
2025-05-23 19:56:47
669
1
原创 【论文阅读|跨模态知识蒸馏|ICLR|Towards Understanding Crossmodal Knowledge Distillation】
题目:The Modality Focusing Hypothesis: Towards Understanding Crossmodal Knowledge Distillation论文链接:https://arxiv.org/abs/2206.06487代码链接:https://github.com/zihuixue/MFH/tree/main/gauss时间:2023。
2025-05-14 18:19:51
1104
1
原创 【论文阅读| DIST | Knowledge Distillation from A Stronger Teacher】
ρpuv∑i1Cui−uˉvi−vˉ∑i1Cui−uˉ2⋅∑i1Cvi−vˉ2ρpuv∑i1Cui−uˉ2⋅∑i1Cvi−vˉ2∑i1Cui−uˉvi−vˉdpuv1−ρpuvdpuv:=1−ρpuv定义预测矩阵:Ys与Yt类间关系蒸馏是按行。
2025-05-11 18:17:54
2222
1
原创 【论文阅读| SpectralKD: A Unified Framework for Interpreting and Distilling Vision Transformers via Spec】
基于模型的分析:通过在频域中分析中间特征图,频谱分析揭示了 CaiT 各层中一种独特的 U 形频率模式:开头和结尾的几层捕获了更丰富的频谱信息,而中间层编码的是强度较低的频率。这种基于模型的观察结果为在处理统一 Transformer 时,知识蒸馏中的层选择提供了指导。设输入信号为实数序列xx0x1xN−1∈RNxx0x1...xN−1∈RN其一维傅里叶变换为复数序列Xk∑n0N−1xn⋅e−2πi⋅kn。
2025-05-07 18:41:45
852
1
原创 CRKD: Enhanced Camera-Radar Object Detection with Cross-modality Knowledge Distillation
3D目标检测任务中,目前性能最优的传感器配置为激光雷达+摄像头(LC),但激光雷达的成本较高。毫米波雷达与摄像头(CR)目前已被广泛部署在车辆上,但其性能不及LC。本文提出摄像头-雷达知识蒸馏(CRKD)以减小LC与CR的性能差距。使用BEV作为共享特征空间,提出4种蒸馏损失,进行知识蒸馏。
2025-04-02 17:21:52
640
原创 ScaleKD: Strong Vision Transformers Could Be Excellent Teachers
现有的大多数知识蒸馏方法主要集中在 CNN 架构上,且通常在小规模数据集上进行评估。尽管有一些最新的研究尝试将 ViT 作为教师模型进行知识蒸馏,但大多数工作仍然关注于小规模的 ViT 模型,且没有进行大规模数据集上的预训练。问题: 特征计算范式的差异:ViT 通过图像补丁和位置嵌入来操作,而 CNN 通过常规像素网格来处理。ViT 使用自注意力机制来建模全局依赖关系,而 CNN 使用卷积操作来建模局部特征。MLP 使用类似于 ViT 的补丁化过程,但使用的是完全连接操作而不是自注意力操作。
2025-03-26 18:57:17
1083
1
空空如也
唐氏刺猬狗哈集幽默人
2025-07-02
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅