- 博客(324)
- 资源 (8)
- 问答 (4)
- 收藏
- 关注
原创 VisionTransformer之简单总结
最近做了一个汇报,这里放一些重要内容。内容主要来自于我自己的阅读总结和综述文章:Transformers in Vision: A Survey.
2021-01-29 10:56:19
2107
13
原创 Ubuntu上学习使用Docker的详细入门教程
Ubuntu上使用Docker的简易教程文章目录Ubuntu上使用Docker的简易教程说在开头Docker是什么、有什么优点什么是镜像(image)和容器(container)如何获取镜像从网络`docker pull``docker run`从他人处`docker load`如何使用镜像如何使用容器创建容器进入容器已退出的容器后台分离模式运行的容器进入启动的容器退出容器删除容器停止正在运行的容器从本机与容器中互相拷贝数据如何生成镜像`docker build``docker commit`如何分享镜像
2020-08-03 16:53:59
19212
4
原创 告别乱码:OpenCV 中文路径(Unicode)读写的解决方案
本文针对OpenCV中文路径读取失败问题,提出了一种基于C++17标准库的跨平台解决方案。核心思路是:使用std::filesystem处理中文路径,利用std::fstream进行二进制文件读写,最后通过OpenCV的imdecode和imencode函数实现图像编解码。
2025-11-03 21:10:06
1030
原创 生成模型 | DDPM -> Imrpoved DDPM -> DDIM
本文介绍了三种扩散模型变体:DDPM、Improved DDPM和DDIM。DDPM通过迭代去噪过程生成样本,但采样速度较慢。Improved DDPM改进了噪声调度策略,采用余弦形式的调整,并引入混合损失函数以优化训练。DDIM则通过非马尔可夫链设计,在保持相同训练目标的同时,显著加快采样速度。这三种方法在扩散模型的噪声处理、损失函数设计和采样效率上各有创新,推动了扩散模型在生成任务中的性能提升。
2025-08-24 21:16:06
854
原创 生成模型 | 扩散模型损失函数公式推导
本文推导了扩散模型的损失函数,通过引入前向分布简化计算,最终将损失分解为三部分:$L_T$(可忽略的常量)、$L_{t-1}$(KL散度项)和$L_0$(重构误差)。
2025-08-23 18:20:41
1307
原创 生成模型 | 扩散模型公式推导
本文介绍了扩散模型的前向加噪和反向去噪过程。前向过程通过马尔科夫链逐步将数据$x_0$转化为高斯噪声$x_T$,其中噪声强度由预设参数$\beta_t$控制。反向过程则利用神经网络从噪声$x_T$逐步恢复原始数据$x_0$。
2025-08-23 11:00:46
1460
原创 ICCV 2025 | Reverse Convolution and Its Applications to Image Restoration
本文提出了一种新颖的深度可分离反向卷积算子(reverse convolution),通过建立并求解正则化最小二乘优化问题,实现了对depthwise卷积的有效反转。该算子采用FFT推导闭式解,并详细研究了核初始化、padding策略等实现细节。基于此构建的reverse卷积块结合了层归一化、1×1卷积和GELU激活,形成类Transformer结构,可直接替换现有网络中的常规卷积层,构建ConverseNet。
2025-08-17 16:50:23
1930
原创 TCSVT 2023 | StructToken - Rethinking Semantic Segmentation with Structural Prior
一种新的语义分割范式,通过结构化token直接构建语义掩码并逐步细化,而非传统逐像素分类方法。作者设计了三种交互结构(CSE、SSE和静态卷积)来捕获特征图中的结构信息,并通过堆叠处理单元实现mask细化。
2025-08-17 11:21:57
1262
原创 torchvision 中 deform_conv2d 操作的经验性解析
详细解析了torchvision中可变形卷积(deform_conv2d)的实现原理和使用方法。
2025-08-17 11:01:30
1287
原创 一次由默认参数引起的思考
本文探讨了依赖版本更新导致代码输出不一致的问题。作者在迁移代码时发现,由于Pillow图像处理库从6.2.1升级到7.2.0,其默认插值策略改变导致resize()函数输出结果不同。文章分析了默认参数的利弊,指出其虽提升开发效率但存在潜在风险。作者建议采取两种应对策略:一是固定依赖版本确保稳定性;二是对关键参数进行显式配置。最后强调开发应以程序稳定运行为首要目标,盲目追求新版本可能得不偿失,并提醒开发者需谨慎对待工具依赖的版本管理。
2025-08-17 10:53:11
1136
原创 TIP 2004 | Image quality assessment: From error visibility to structural similarity
本文介绍了全参考图像质量评估方法SSIM(结构相似性指数)的设计背景与实现。传统评估方法如MSE和PSNR虽计算简单,但与人类感知质量匹配度低。SSIM基于结构信息退化假设,通过亮度、对比度和结构三个分量评估图像质量。论文详细阐述了SSIM的算法框架,并对比了不同实现的高斯滤波处理方式差异。作者基于PyTorch实现了可微分的MSSIM代码,支持用户自定义padding和核形式参数,确保与现有实现兼容。该指标在图像处理系统优化、算法评估等领域具有重要应用价值。
2025-08-17 10:44:32
1370
原创 ACMMM 2024 | Wave-Mamba: Wavelet State Space Model for Ultra-High-Definition Low-Light Image Enhance
针对超高清低照度图像增强中的计算复杂度和信息丢失问题,提出Wave-Mamba模型。该模型创新性地结合离散小波变换(DWT)与状态空间模型(SSM),通过小波域分析发现:1)93.7%图像能量集中于低频分量;2)高频对增强结果影响微弱。基于此,设计低频状态空间模块(LFSSBlock)进行全局增强,并通过改进的高频增强模块(HFEBlock)校正细节。
2025-08-01 12:33:12
1537
原创 ICCV 2025 | WaveMamba: Wavelet-Driven Mamba Fusion for RGB-Infrared Object Detection
本文提出WaveMamba,一种基于小波变换和Mamba的RGB-红外跨模态目标检测方法。研究发现RGB和红外图像在频域具有互补特性:红外图像低频信息丰富,RGB图像高频细节突出。WaveMamba通过离散小波变换分解特征,采用低频Mamba融合块(结合通道交换和门控注意力)和高频绝对最大值增强策略,实现高效特征融合。在六个基准数据集上的实验表明,该方法平均mAP提升4.5%,同时保持较低计算开销,为跨模态目标检测提供了新思路。
2025-08-01 00:05:05
1641
3
原创 ICCV 2025 | CWNet: Causal Wavelet Network for Low-Light Image Enhancement
本文提出一种基于因果推理与小波变换的低光照图像增强方法。CWNet通过因果干预分析揭示潜在因果关系,采用全局度量学习分离因果/非因果因子,并引入实例级CLIP语义损失确保局部一致性。同时设计基于小波变换的主干网络优化频域信息恢复。实验表明,CWNet在多个数据集上优于现有方法,有效解决了光照不均与语义保持的挑战。该方法为低光增强提供了新的因果推理视角,显著提升了视觉质量与语义准确性。
2025-07-24 23:28:00
1523
原创 CVPR 2025 | Incomplete Multi-modal Brain Tumor Segmentation via Learnable Sorting State Space Model
针对多模态脑肿瘤分割中MRI模态缺失问题,提出了一种基于可学习排序状态空间模型(LS3M)的新方法。该框架通过可微分的动态重排机制(SortP)保留3D MRI的空间结构和语义关联,结合串联状态空间模型(S3M)高效建模长程依赖关系,并采用全局输入策略增强上下文感知。实验表明,在BraTS2018和BraTS2020数据集上,LS3M在模态缺失情况下显著优于现有方法。
2025-07-19 18:33:55
1649
原创 ICML 2025 | FourierMamba: Fourier Learning Integration with State Space Models for Image Deraining
提出FourierMamba模型,将State Space Models与Fourier学习相结合用于图像去雨。针对现有频域方法忽视频率间依赖关系的问题,模型采用多尺度U-Net架构,核心包含Fourier Spatial Interaction SSM和Fourier Channel Evolution SSM两个模块。前者在空间维度通过改进的zigzag扫描策略(bilateral和progressive两种变体)有序处理频谱信息;后者在通道维度建模频率相关性。
2025-07-19 14:25:42
1551
原创 TMI 2025 | Serp-Mamba: Advancing High-Resolution Retinal Vessel Segmentation with Selective SSM
提出Serp-Mamba模型,用于高分辨率视网膜血管分割。针对UWF-SLO图像中血管形态特殊、类别失衡等挑战,提出两项创新:1) 蛇形交织自适应扫描机制(SIA),通过可变形路径动态贴合血管曲率,解决传统Mamba固定扫描导致的血管断裂问题;2) 模糊驱动双重校准模块(ADDR),利用双阈值划分和交叉注意力重校准模糊像素,缓解高分辨率下的类别失衡问题。
2025-07-18 23:55:55
1419
原创 ArXiv 2507 | RegCL: Continual Adaptation of Segment Anything Model via Model Merging
本文提出RegCL方法,通过模型合并实现Segment Anything Model (SAM)在动态多域环境中的持续适配。针对SAM在医学、伪装等特殊领域表现不佳且传统微调导致灾难性遗忘的问题,RegCL创新性地将RegMean模型合并算法引入持续学习场景,仅需保存历史任务的权重内积矩阵,即可在不增加推理参数量的前提下合并新旧知识。实验表明,在五个跨域分割任务上,RegCL的平均准确率达0.751 mIoU,显著优于传统方法,且支持与回放方法结合进一步提升性能。
2025-07-17 22:48:46
1505
原创 TGRS 2025 | HTD-Mamba: Efficient Hyperspectral Target Detection with Pyramid State Space Model
本文提出HTD-Mamba,一种基于金字塔状态空间模型的高光谱目标检测方法,解决了先验知识有限和光谱变化两大挑战。该方法通过空间编码光谱增强(SESA)生成对比样本对,结合多分辨率特征提取(MSFE)和对比学习机制,有效区分目标与背景。引入Mamba模型捕获长程光谱依赖,以线性复杂度实现高效检测。实验表明,HTD-Mamba在四个数据集上显著优于现有方法(如San Diego I数据集AUC达0.9998),在计算效率和检测精度上均具优势。
2025-07-17 19:13:31
1369
原创 CVPR 2025 Oral | DiffFNO: Diffusion Fourier Neural Operator
该研究提出DiffFNO框架,通过融合扩散模型与改进的傅里叶神经算子(FNO)解决图像超分辨率问题。实验表明,DiffFNO在多个基准测试中PSNR指标提升2-4dB,且对训练未见尺度具有强泛化能力。
2025-07-17 17:52:47
2236
原创 小波变换 | 离散小波变换
介绍了离散小波变换(DWT)的核心原理与实现方法。重点阐述了从连续小波变换到DWT的离散化过程,包括尺度参数和平移参数的二进网格采样(a_j=2^j, b_jk=k·2^j),以及时间参数的离散化处理。通过多分辨率分析(MRA)理论,系统性地构建了正交或双正交的小波基函数,引入尺度函数和小波函数两套基函数体系。
2025-07-14 20:31:50
1370
原创 小波变换 | 连续小波变换
小波变换是一种时频分析工具,通过母小波函数生成子小波函数来同时分析信号的时间和频率特征。连续小波变换通过不同尺度和平移参数计算小波系数,反映信号的局部时频特性。小波变换可通过卷积实现,并存在逆变换条件。
2025-07-14 19:15:37
898
原创 NeurIPS 2024 | Rethinking the Evaluation of Out-of-Distribution Detection: A Sorites Paradox
提出OOD检测新评估框架,解决传统方法因语义标签噪声导致的"堆垛悖论"问题。研究构建了IS-OOD基准数据集,通过CLIP特征分解技术(LAID)量化样本与训练数据的语义和协变量偏移程度,取代传统的二元划分。实验揭示了不同OOD方法对两类偏移的敏感性差异,为未来研究提供了更细粒度的评估标准。
2025-07-14 13:26:48
1150
原创 NeurIPS 2024 | Can Transformers Smell Like Humans?
本文探讨了Transformer模型在无嗅觉标签条件下,能否通过化学结构预训练对齐人类嗅觉感知。研究发现,MoLFormer模型提取的气味剂表征能够有效预测专家标注的嗅觉描述符、人类连续评分及气味剂相似度,其性能接近监督模型且优于传统物理化学特征方法。分析表明,模型深层表征更偏向高层感知特征而非底层化学属性。研究证实了自监督Transformer在嗅觉感知预测中的潜力,为化学与神经科学研究提供了新工具,但受限于数据质量和个体差异等因素,仍有改进空间。
2025-07-12 16:15:00
1034
原创 ArXiv 2506 | WaRA: Wavelet Low Rank Adaptation
本文提出WaRA(Wavelet Low Rank Adaptation),一种新型参数高效微调(PEFT)方法,通过将小波变换引入低秩适应过程,有效解决了现有方法在捕捉多尺度结构数据时的不足。WaRA的核心创新点在于: 在小波域进行低秩分解,保留关键结构信息的同时大幅减少参数量 引入跨子带参数共享策略,进一步提升参数效率 采用Haar正交基实现高效的小波变换。实验证明,WaRA在图像生成、分类等视觉任务中显著优于传统LoRA方法,在语言任务中也展现出良好性能。
2025-07-09 12:16:33
1354
原创 ArXiv 2501 | From Molecules to Mixtures: Learning Representations of Olfactory Mixture Similarity
本文提出POMMIX模型,首次将数字化嗅觉研究从单一分子扩展到复杂混合物。该模型采用层次化架构:基于图神经网络学习分子嵌入,通过自注意力机制聚合混合物表示,并设计对称性评分函数预测相似性。实验表明,POMMIX在低数据量场景下显著优于传统方法,并验证了"嗅觉白噪声"现象。研究为蚊虫驱避剂开发、食品香料设计等应用提供了新思路,并展示了领域知识与深度学习结合在化学感知建模中的潜力。
2025-07-08 23:35:20
1532
原创 ArXiv 2507 | SWinMamba: Serpentine Window State Space Model for Vascular Segmentation
本文提出了一种新型血管分割模型SWinMamba,通过将蛇形窗口序列融入双向状态空间模型,有效解决了血管几何连续性(VGC)的建模难题。该方法包含三个核心组件:SWToken采用蛇形窗口自适应分割图像,提供灵活感受野;BAM通过双向聚合整合局部特征;SFFU融合空间和频率域特征以构建全面表示。在CHASE-DB1等三个数据集上的实验表明,该方法显著提升了血管分割的完整性和连通性,β0指标平均提升18.17%,同时保持较低计算成本。消融实验验证了各模块的有效性,为临床诊断和手术导航提供了更可靠的血管分割方案。
2025-07-07 16:38:36
1200
原创 CVPR 2025 | DefMamba: Deformable Visual State Space Model
提出了一种创新的视觉基础模型DefMamba,通过可变形扫描策略动态调整扫描路径,优先捕捉重要信息。该方法将可变形机制首次引入状态空间模型(SSM),结合深度卷积和可变形分支,设计了包含偏移网络的可变形状态空间模型(DSSM)。实验表明,DefMamba在ImageNet分类、COCO检测/分割和ADE20K语义分割等任务中性能显著优于现有SSM方法,且计算复杂度较低。该研究为SSM在视觉任务中的应用提供了新思路,但处理不完整物体结构时仍存在局限。
2025-07-07 12:14:11
978
原创 Arxiv 2502 | DAMamba: Vision State Space Model with Dynamic Adaptive Scan
摘要: 本文提出DAMamba,一种基于动态自适应扫描(DAS)的视觉状态空间模型,解决了传统扫描策略在图像语义邻接性破坏和灵活性不足的问题。DAS通过数据驱动方式动态调整扫描顺序和区域,结合可学习的偏移预测网络优化特征提取。DAMamba整合多尺度层次化结构和卷积增强模块,在ImageNet-1K分类任务中达到83.8%准确率,显著超越现有SSM和ViT模型。在COCO目标检测/分割及ADE20K语义分割任务中,DAMamba分别取得最高50.6 mAP和51.9 mIoU,验证了其作为通用视觉骨干网络的
2025-07-07 12:03:42
836
原创 ICCV 2025 | Achieving More with Less: Additive Prompt Tuning for Rehearsal-Free CIL
本文提出了一种新型的类增量学习方法APT(Additive Prompt Tuning),通过创新的提示调优方式解决了现有基于提示的方法计算开销大的问题。APT采用直接修改CLS token注意力计算的方式,而非传统的提示拼接方法,显著降低了计算复杂度。该方法还提出渐进式提示融合(PPF)策略,通过加权平均新旧提示有效减轻灾难性遗忘。实验表明,APT在多个基准测试中性能最优,如ImageNet-R上平均准确率提升5.2%,同时计算量减少41.5%,可训练参数减少78.2%。该方法不仅适用于类增量学习,还展现
2025-07-06 19:55:48
733
原创 生成 | 朗之万动力学与郎之万采样
朗之万动力学是描述微观粒子在势能场中受趋势力、摩擦力和随机力共同作用的随机微分方程。该方程揭示了热平衡系统中微观状态的概率分布由能量决定(玻尔兹曼分布)。在过阻尼极限下,方程简化为只含趋势力和随机力的一阶形式,成为郎之万采样的理论基础。郎之万采样利用梯度信息和随机噪声,通过离散化处理(欧拉-丸山方法)实现高效概率采样,特别适用于高维非标准化分布。该方法将物理系统的热平衡原理转化为机器学习中的采样引擎,在生成建模等领域有重要应用。
2025-07-05 19:14:23
944
原创 ArXiv 2101 | Rethinking Interactive Image Segmentation Feature Space Annotation
摘要 本文提出了一种创新的交互式图像分割方法,通过在特征空间进行批注操作来同时处理多幅图像。与传统在像素空间进行单幅图像标注的模式不同,该方法将用户交互转移到特征空间,显著减少了标注工作量。实验证明,该方法在前景分割数据集上达到state-of-the-art水平,在Cityscapes语义分割数据集上实现91.5%的准确率,标注效率提升74.75倍。该研究为图像分割标注提供了新思路,可与其他方法结合进一步提升标注效率。
2025-06-26 14:32:42
212
原创 CVPR 2024 | Rethinking Inductive Biases for Surface Normal Estimation
这篇论文重新思考了表面法线估计的归纳偏置问题,提出了创新性方法。作者指出现有基于通用密集预测模型的方法存在局限,进而提出三点改进:利用射向每个像素的射线方向作为输入,设计基于射线方向的激活函数,将法线估计重构为相对旋转估计。实验表明,该方法能生成更清晰平滑的预测结果,且在数据量较少时展现更强的泛化能力。该研究为从单RGB图像估计表面法线的任务提供了新思路,对三维重建等计算机视觉应用具有重要意义。
2025-06-26 14:27:23
304
原创 CVPR 2024 | Rethinking the Up-Sampling Operations in CNN-based Generative Network for Generalizable
本文研究了CNN生成网络中的上采样操作对深度伪造检测的影响,提出了基于邻近像素关系(NPR)的新型检测方法。研究发现上采样不仅产生频率域伪影,还会在像素级留下痕迹。NPR通过计算局部窗口内像素差值关系,有效捕捉图像细节中的生成痕迹。实验在包含28种生成模型的开放数据集上进行验证,NPR方法相比现有技术取得了11.6%的性能提升,展现出优秀的泛化能力。该方法通过训练二元分类器,利用NPR特征区分真实与合成图像,为深度伪造检测提供了新思路。
2025-06-26 14:20:51
799
原创 【译】Privacy-Enhancing Technologies in Biomedical Data Science
在这篇综述中,我们专注于文献中最广泛研究的技术,包括同态加密(HE)、安全多方计算(MPC)、可信执行环境(TEE)、差分隐私(DP)和联邦学习(FL)。最近的进展极大地增加了这些技术在生物医学领域的适用性,正如我们在这篇综述中所说明的。与将 PETs 描述为解决生物医学数据共享挑战的潜在解决方案的现有综述(5-9)不同,我们专注于提供 PETs 最新进展的易于理解的总结,检查其技术基础和生物医学应用。
2025-06-26 14:16:34
821
原创 Transformer | 相对位置编码
相对位置编码现在已经被很多的视觉Transformer使用,也存在不同的实现形式。由于位置编码的本质就是将可学习变量或者是固定参数与特定的位置索引关联起来,所以实现的过程中会涉及到大量的坐标索引的变换,可读性很差。也因此不同形式的实现也存在着明显的差异。
2025-01-19 21:36:27
1244
原创 Hausdorff 距离
本文的内容主要围绕目标定位经典工作LocatingObjectsWithoutBoundingBoxes展开,着重于介绍HausdorffDistance相关的知识。
2025-01-18 13:21:50
1635
Arduino与LabVIEW互动设计
2017-09-03
我和LabVIEW 一个NI工程师的十年编程经验
2017-09-03
《Arduino与LabVIEW开发实战》配套代码
2017-09-03
关于manjaro的谷歌拼音的问题
2018-05-18
关于vim插件管理的问题
2018-01-20
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅