- 博客(283)
- 收藏
- 关注
原创 优质GAN模型专栏目录
(GANs, Generative Adversarial Networks)是一种深度学习架构,由生成器(Generator)和判别器(Discriminator)组成,通常用于生成逼真的数据(如图像、视频、音频等)。GANs 在多个领域中得到了广泛的应用,且其优点也使得它在很多场景中表现出色。包括生成高质量数据、无监督学习、数据增强、灵活性和适应性、高效的表示学习、创新的生成能力、对抗训练的鲁棒性该专栏主要利用Pytorch框架复现关于图像生成的GAN模型系列论文代码。
2025-02-23 10:00:00
657
原创 (论文速读)一维改进自关注增强CNN和经验小波变换的故智能故障诊断框架
一种基于经验小波变换(EWT)和一维改进自注意增强卷积神经网络(1D-ISACNN)的智能轴承故障诊断框架。针对传统CNN在轴承故障诊断中的三大局限(交叉熵损失函数、ReLU激活函数和Adam优化器),该框架创新性地采用标签平滑正则化损失函数、Meta-ACON-C自适应激活函数和AdamP优化器进行改进,并引入EWT将原始信号分解为三个频率分量以增强特征表达。实验结果表明,该方法在三个不同来源的轴承数据集上均达到100%的分类准确率,且具有优异的稳定性和泛化能力。
2025-11-24 15:52:29
670
原创 (综述)工业表面缺陷图像生成技术综述
本文综述了工业表面缺陷图像生成技术的研究进展。针对工业场景中缺陷样本稀缺、多样性不足的问题,系统梳理了传统CAD方法、图像处理方法及深度学习方法(GAN、扩散模型等)的优缺点。重点分析了扩散模型在工业缺陷生成中的创新应用,包括Stable Diffusion微调、LoRA高效训练和ControlNet精确控制。实验表明,扩散模型在生成质量、多样性和小样本适应性上显著优于传统方法,能提升下游检测任务准确率12.73%。文章还探讨了领域面临的挑战,如小样本学习、评估体系完善等,并提出了未来研究方向。为工业质检提
2025-11-24 15:52:04
176
原创 (论文速读)用于高分辨率图像合成的缩放整流变压器
RectifiedFlow生成模型及创新的MM-DiT架构,用于高分辨率图像合成。通过优化时间步采样策略和引入双向信息流的多模态Transformer,该方法在文本到图像生成任务中展现出卓越性能。大规模实验表明,8B参数模型在多项指标上超越DALL-E3等现有技术,并验证了模型扩展的规律性。该工作不仅提供了统一的扩散模型理论框架,其开源承诺也将推动生成式AI的发展。
2025-11-22 16:15:36
802
原创 (论文速读)基于增强时间序列数据的卷积长短期记忆桥梁结构损伤识别方法
一种结合1DCNN和LSTM网络的桥梁结构损伤识别方法,通过SAX技术对时间序列数据进行增强和转换。该方法首先利用数据增强技术提高模型泛化能力,再通过SAX转换降维处理数据。实验以越南长征桥为对象,验证了1DCNN-LSTM-SAX模型的优越性,其准确率达90.9%,显著优于传统方法。该研究为桥梁健康监测提供了高效、鲁棒的智能解决方案,具有重要工程应用价值。
2025-11-22 16:14:41
1101
原创 (论文速读)基于新型数据融合技术和自关注模块的多尺度1-DCNN导波损伤定位与量化
一种基于多尺度1-D卷积神经网络(MSCNN)和小权重零设置自注意力模块(SAM)的复合材料损伤检测方法MSCNNSAM。通过改进分段聚合近似算法(IPAA)压缩导波信号,并提出损伤信息目标增强与多路径数据融合方法。MSCNN利用多尺度卷积核捕获信号特征,SAM模块通过置零低权重通道提高特征提取能力。实验表明,该方法在碳纤维板上实现了5.48%的定位误差和100%的损伤尺寸分类准确率,信号压缩比达150倍。该方法为复合材料结构健康监测提供了高效解决方案。
2025-11-21 23:55:03
1149
原创 (论文速读)多任务深度学习框架下基于Lamb波的多损伤数据集构建与量化算法
一种基于多任务深度学习框架的Lamb波多损伤检测方法。针对复合材料结构多损伤检测面临的数据集构建困难和量化精度受限等问题,研究创新性地提出了PSOPM数据集构建方法(基于Born近似原理将单损伤信号叠加生成多损伤样本)和多分支1D-CNN网络架构。实验结果表明,该方法仅需48个单损伤信号即可生成16,248个训练样本,数据效率提升338倍;多任务学习相比单任务训练时间减少23.03%,在构建测试集和实测测试集上均表现出色,特别是对损伤尺寸的量化精度显著提升(双损伤MIOU提高80.9%)。
2025-11-21 20:33:45
705
原创 (论文速读)SpiralMLP:一个轻量级的视觉MLP架构
SpiralMLP,一种新型轻量级视觉MLP架构,通过引入螺旋状FC层替代传统令牌混合方法。该设计采用可变形卷积层的螺旋偏移特性,形成自螺旋和交叉螺旋两种变体,实现局部与全局特征的无缝整合。实验证明,SpiralMLP在ImageNet1k等基准测试中达到SOTA性能,保持线性计算复杂度O(HW),且兼容不同输入分辨率。研究结果表明,优化方法设计(而非简单扩大感受野)可显著提升模型效果。代码已开源。
2025-11-20 22:06:19
781
原创 (数据集)RGBT-Tiny:大规模可见光-热红外(RGBT)小目标检测基准数据集
《可见热微小目标检测:基准数据集和基线》提出首个大规模可见光-热红外(RGBT)小目标检测数据集RGBT-Tiny,包含115个序列、93K帧图像和1.2M手工标注,其中81%目标小于16×16像素。针对传统IoU指标对小目标检测评价不合理的问题,论文提出尺度自适应适应度(SAFit)评价指标,能根据目标大小自动调整评价方式。研究对30种先进算法进行评估,发现端到端框架和RGBT融合方法表现突出,但当前最佳AP仅20-30%,显示该数据集具有显著挑战性。该工作为全天候监控、无人驾驶等应用提供了重要基准。
2025-11-20 22:06:01
1182
原创 (论文速读)基于图像分割与双目立体视觉的透明液体液位测量研究
一种结合UNet图像分割与RAFT-Stereo立体匹配的双目视觉方法,用于透明液体液位的高精度测量。针对传统方法在透明液体场景中因纹理缺失导致的深度估计误差问题,该方法首先通过UNet网络对液面进行精确分割生成像素级掩膜,再结合RAFT-Stereo算法计算视差并转换为深度信息。实验结果表明,该方法显著优于传统算法,平均绝对误差和最大误差分别降低约85.2%和82.1%,有效解决了透明液体液面模糊和匹配失败问题,为航天燃料罐监测等实际应用提供了可靠技术方案。
2025-11-19 12:42:37
1007
原创 (综述)双目立体视觉研究进展与应用
综述了双目立体视觉的研究进展与应用。传统立体匹配方法在弱纹理、遮挡等场景下表现欠佳,而基于深度学习的方法展现出强大潜力。论文系统梳理了从传统匹配算法到端到端深度学习模型的演进历程,详细分析了各类方法的优缺点,介绍了双目视觉产品现状,并展望了边缘计算、复杂环境适应性等未来发展方向。研究显示,深度学习已成为主流技术方向,但工程化应用仍面临计算效率与泛化性能等挑战,Transformer架构和稀疏几何表达有望成为重要研究方向。双目立体视觉技术正逐步实现从实验室到产业化的跨越发展。
2025-11-19 12:42:13
1257
原创 (论文速读)自适应加权判别器
本文提出了一种用于训练生成对抗网络(GAN)的自适应加权判别器损失函数(aw-loss)。传统GAN判别器损失由真实数据和生成数据损失等权相加组成,这种固定权重方式可能导致训练不稳定和模式坍塌。作者通过分析发现,真实和生成数据损失的梯度方向可能产生冲突,为此提出了根据当前判别器状态动态调整两个损失权重的策略。该方法通过监控真实/生成数据得分和梯度夹角,采用三种不同的权重分配策略:当真实数据得分过低时优先优化其损失,当得分足够高时侧重生成数据损失,一般情况下采用梯度角平分线策略。
2025-11-18 12:19:40
1066
原创 (综述)视觉测波技术与智能算法:海洋波浪监测的未来
视觉测波技术及其智能优化算法研究进展 本文综述了基于视觉的波浪监测技术发展现状,重点分析了单目、双目和多目视觉技术的原理、应用案例及优缺点。研究表明,立体视觉技术相比传统雷达测波具有高分辨率、低成本等优势。随着人工智能技术的引入,卷积神经网络、LSTM等深度学习算法在波浪反演、预测等环节取得显著成效,有效提升了监测精度和数据处理能力。未来发展趋势包括深度学习与视觉测波的深度融合、匹配算法优化、系统智能自动化等方向。视觉测波技术与智能算法的结合将推动海洋监测系统向高效、精确、可靠方向发展。
2025-11-18 12:19:05
1376
原创 (论文速读)WFF-Net:用于表面缺陷检测的可训练权重特征融合卷积神经网络
WFF-Net模型,针对表面缺陷检测中多尺度特征融合的语义差异和冗余问题,创新性地设计了三种解决方案:(1)可学习的加权特征融合模块(WFF),通过门控机制动态分配特征权重;(2)双解码器架构,减少特征损失;(3)结构化损失函数优化多尺度输出。实验表明,该方法在NEU-SEG、DAGM2007和MT缺陷数据集上取得了优异性能(MIoU分别达85.70%、86.12%和82.72%),为工业质检提供了新思路。
2025-11-17 15:32:21
1005
原创 (论文速读)ProjAttacker: 一个可配置的物理对抗性攻击面部识别通过投影仪
ProjAttacker,一种基于投影仪的物理对抗攻击方法,用于欺骗人脸识别系统。与传统物理攻击依赖遮挡物不同,该方法通过投影仪生成对抗性3D纹理投射到人脸,实现非侵入式攻击。研究创新性地引入光反射函数模拟皮肤光学特性,并结合相机ISP模拟提升鲁棒性。实验表明,该方法在数字和物理场景中均能有效攻击多种人脸识别模型,并成功绕过活体检测系统。在LFW和CelebA-HQ数据集上分别达到68.72%和85.36%的攻击成功率,显著优于现有方法。
2025-11-17 15:31:55
962
原创 (论文速读)LumiNet:室内场景重照明的潜在本然满足扩散模型
LumiNet是一种创新性的室内场景重照明架构,通过结合生成模型和潜在内在表征实现光线跨场景转移。该方法的核心创新包括:1)基于StyleGAN的数据增强策略,生成多样化的训练样本;2)改进的ControlNet架构,能同时处理源场景的潜在内在属性和目标场景的潜在外在光照特征;3)学习适配器通过交叉注意机制实现高质量光照传输。
2025-11-15 18:48:50
941
原创 (论文速读)具有深度引导交叉视图一致性的3D高斯图像绘制
本文提出3DGIC框架,通过深度引导实现跨视图一致的3D高斯图像修复。该框架利用预训练3D高斯模型渲染的深度图,智能优化各视角修复掩码,仅处理真正被遮挡的区域。核心创新包括:1)深度引导的掩码优化算法,确保不修改其他视角可见的背景;2)单参考视角高质量修复+多视角投影传播策略,保证几何一致性。实验表明,该方法在SPIn-NeRF等基准上显著优于现有方案(FID降低5.7%),在保留背景细节和跨视角一致性方面表现突出。研究为3D场景编辑提供了新思路,特别适用于VR/AR内容创作和影视后期制作。
2025-11-15 18:48:29
901
原创 (论文速读)AIMV2:一种基于多模态自回归预训练的大规模视觉编码器方法
AIMV2,一种基于多模态自回归预训练的大规模视觉编码器方法。该方法将图像补丁和文本标记统一到自回归序列中进行联合建模,通过前缀视觉编码器和因果多模态解码器的创新架构,实现了简单高效的训练流程。AIMV2在0.3B到3B参数规模下展现出卓越性能:在ImageNet-1k达到89.5%准确率(冻结主干),并在20多个视觉和多模态任务中超越对比学习模型(如CLIP、SigLIP)。其优势包括训练稳定性、数据效率(仅需12B样本)和小批量可行性(8k vs CLIP的32k)。
2025-11-14 20:16:46
774
原创 (论文速读)Science-T2I:解决图像合成中的科学错觉
Science-T2I方法,通过构建包含9K提示和20K图像对的科学知识数据集,开发SciScore奖励模型评估生成图像的科学准确性,并设计两阶段微调框架将科学知识融入生成模型。实验表明,SciScore评估准确率超越人类5%,微调后的模型在科学准确性上提升超50%,有效解决了当前生成模型缺乏科学理解的问题。该工作为提升AI系统的科学认知能力提供了新思路。
2025-11-14 20:15:52
1133
原创 (论文速读)基于DCP-MobileViT网络的焊接缺陷识别
提出了一种基于DCP-MobileViT网络的焊接缺陷识别方法,解决了焊接图像噪声干扰严重、模型泛化能力不足和计算资源受限等挑战。该方法创新性地将暗通道先验算法(DCP)与轻量级MobileViT网络相结合,通过双分支架构同时处理去噪图像和透射图,有效提取局部和全局特征。实验结果表明,该模型在已知数据集和未知工艺规范数据集上分别达到99.55%和97.30%的识别准确率,参数量仅1.87M,处理速度达31FPS,满足实时监测需求。研究为机器人弧焊质量监测提供了高效解决方案,具有重要的工业应用价值。
2025-11-13 16:23:04
1328
原创 (论文速读)基于拉曼光谱深度学习的改进拉曼半定量分析成像去噪方法
一种基于深度学习的改进拉曼光谱去噪方法(MFED模型),通过创新的数据增强、混合噪声模型和多尺度特征提取技术,显著提升了拉曼光谱的信噪比。实验表明该方法使信噪比提升576%,在橄榄油掺假检测中将预测准确度从0.914提高到0.974,并将宫颈癌细胞拉曼成像时间缩短67%。MFED模型具有良好的泛化能力和鲁棒性,为拉曼技术在食品安全、生物医学等领域的应用提供了更高效的解决方案。
2025-11-13 16:22:21
809
原创 (论文速读)面向实用的实时神经视频压缩
DCVC-RT,一种突破性的实时神经视频编解码器。研究团队发现传统认知存在误区,操作复杂度(如内存I/O和函数调用)而非计算量才是速度瓶颈。基于此,他们提出四大创新:隐式时间建模消除复杂运动模块、单一低分辨率潜在表示替代渐进下采样、模块库码率控制方案和模型整数化技术。实验表明,在NVIDIAA100上实现1080p视频125.2/112.8fps的编解码速度,相比H.266/VTM节省21%比特率,首次在消费级硬件上实现实时高质量神经视频编码。该研究代表了神经视频编码从实验室走向实际应用的重要突破。
2025-11-12 19:30:55
832
原创 (论文速读)GC-Net:用于钢材表面缺陷检测的全局关注模块和级联融合网络
针对钢材表面缺陷检测中存在的非结构化特征、多尺度缺陷和数据稀缺等挑战,提出了一种基于全局注意力模块(GAM)和级联融合网络(CFN)的GC-Net方法。GAM通过轴向注意力和多头自注意力增强模型对非结构化缺陷的检测能力,CFN实现多尺度特征融合提升检测精度。结合软非最大值抑制(Soft-NMS)后处理和针对性数据增强策略,该方法在两个公开数据集NEU-DET(mAP50 0.771)和GC10-DET(mAP50 0.635)上均达到最优性能。
2025-11-12 19:29:25
931
原创 (论文速读)Regor - 渐进式对应点再生实现鲁棒3D配准
本文提出了一种创新的渐进式对应再生器Regor,用于解决3D点云配准中极端异常值情况下的对应点质量问题。与传统"删除异常点"的方法不同,Regor采用"自下而上再生"策略,通过先验引导的局部分组、广义互匹配和中心感知三点一致性等技术,逐步生成高质量对应点。实验表明,在99%异常值率场景下,Regor能生成比现有方法多10-2000倍的正确对应点,配准成功率提升17.61个百分点,且对传统描述子也能实现88%以上的配准成功率。
2025-11-11 02:00:38
960
原创 (论文速读)用于单幅图像深度估计的深度卷积神经场
本文提出了一种深度卷积神经场模型,用于解决单幅图像深度估计这一具有挑战性的问题。该方法创新性地将深度卷积神经网络(CNN)与连续条件随机场(CRF)相结合,在统一框架中联合学习一元和成对参数。通过利用连续CRF的数学性质,实现了配分函数的解析计算和精确优化,使预测过程高效(仅需1.1秒)。实验表明,该方法在NYUv2和Make3D数据集上均优于现有方法,且无需几何先验或额外信息。论文的创新点在于将深度学习与结构化学习有机结合,为后续研究提供了重要参考。
2025-11-10 19:46:42
1455
原创 StreamingT2V:从文本生成一致、动态和可扩展的长视频
StreamingT2V提出了一种突破性的文本到长视频生成方法,通过条件注意力模块(CAM)实现平滑片段过渡,外观保持模块(APM)维持长期场景一致性,以及随机混合策略消除增强过程中的拼接痕迹。该方法能够生成长达2分钟的高质量视频,在运动丰富性和一致性方面显著优于现有技术,定量指标MAWE降低28%。这种模块化设计结合了短/长期记忆机制,为AI视频创作开辟了新可能,可应用于广告、教育、娱乐等多个领域。
2025-11-10 19:46:19
1204
原创 (论文速读)LyT-Net:基于YUV变压器的轻量级微光图像增强网络
一种轻量级Transformer网络LYT-Net用于低光照图像增强。该模型采用YUV色彩空间双路径处理,创新性地设计了通道智慧型消噪器(CWD)和多级挤压与激磁融合(MSEF)模块。实验表明,在仅45K参数和3.49GFLOPs的轻量级架构下,LYT-Net在多个低光照数据集上实现了与复杂模型相当的性能,在效率与效果间取得良好平衡。其模块化设计和针对性处理策略为移动端低光照图像增强提供了实用解决方案。
2025-11-08 22:51:01
899
原创 (论文速读)CLIP:Learning Transferable Visual Models From Natural Language Supervision
本文介绍了OpenAI提出的CLIP(Contrastive Language-Image Pre-training)模型,这是一种通过自然语言监督学习可迁移视觉模型的新方法。CLIP利用互联网上的4亿图文对进行训练,采用对比学习框架连接图像和文本表示,实现了强大的零样本迁移能力。实验表明,CLIP在30多个计算机视觉任务上表现出色,在ImageNet零样本任务中达到了与全监督ResNet-50相当的性能(76.2%),同时展现出显著的分布偏移鲁棒性。论文还深入分析了CLIP的局限性、社会影响和应用前景。
2025-11-08 22:45:59
1343
原创 (论文速读)单目深度估计的视觉语言体现
这篇论文提出了一种创新的单目深度估计方法,通过融合视觉-语言信息和相机物理特性来提升精度。核心创新包括:1)将相机模型具身化,利用相机内参和平面假设计算几何先验深度;2)引入包含深度信息的文本描述作为语言先验;3)设计交叉注意力机制融合RGB特征和几何先验。实验表明,该方法在KITTI和DDAD数据集上全面超越现有技术,特别是在道路区域实现±5%误差范围内80.24%的像素精度。该研究通过多模态融合和物理约束嵌入,为单目深度估计提供了新思路。
2025-11-07 17:22:34
1118
原创 (论文速读)Fast3R:在一个向前通道中实现1000+图像的3D重建
Fast3R:突破性多视图3D重建方法,一种基于Transformer的新方法,可在单次前向传播中处理1000+图像的3D重建。针对现有DUSt3R方法在扩展性、计算效率和错误累积方面的局限,Fast3R通过创新性地引入图像索引位置编码和位置插值技术,实现了多视图并行处理。实验表明,Fast3R在CO3D数据集上达到99.7%的相机姿态估计精度,处理速度比DUSt3R快320倍。该方法在保持重建精度的同时显著提升了计算效率,为大规模3D重建应用提供了可行解决方案。
2025-11-07 17:22:02
818
原创 (论文速读)基于图像堆栈的低频超宽带SAR叶簇隐蔽目标变化检测
本文针对低频超宽带合成孔径雷达(UWBSAR)在叶簇隐蔽目标检测中的挑战,提出了一种基于图像叠加的变化检测策略。通过创新的双向线性回归辐射校正方法消除非目标干扰,并利用多幅参考图像差分构建高斯概率模型,结合广义似然比检验有效抑制杂波干扰。在CARABAS-II数据集上的实验表明,该方法在虚警率0.42km⁻²条件下达到99.2%的检测率,显著优于传统方法。该研究为军事侦察、环境监测等应用提供了高精度的叶下目标检测方案,具有重要的理论和实用价值。
2025-11-06 21:31:41
1114
原创 SGV3D:面向基于视觉的路边3D目标检测的场景泛化
摘要:SGV3D提出了一种创新的基于视觉的路边3D物体检测场景泛化框架,解决了现有方法在新场景下性能骤降的问题。该框架采用背景抑制模块(BSM)减少BEV投影中的背景特征过拟合,并引入半监督数据生成管道(SSDG)利用未标记图像生成多样化训练样本。在两个大规模路边基准测试中,SGV3D显著提升了场景泛化能力,跨场景测试中车辆检测准确率提升42.57%,而计算开销仅增加约3%。该研究为智能交通系统中路侧感知的实际部署提供了有效的解决方案。
2025-11-06 21:31:19
710
原创 SAMWISE:为文本驱动的视频分割注入SAM2的智慧
本文提出SAMWISE方法,在Segment-Anything2(SAM2)模型中注入文本理解和时序建模能力,用于指称视频对象分割(RVOS)任务。针对现有方法处理短片段丢失全局上下文或离线处理不适于流式应用的问题,SAMWISE通过三个创新模块实现突破:(1)跨模态时序适配器(CMT)实现视觉-文本早期融合和局部时空建模;(2)双提示策略整合语义和运动信息;(3)条件记忆编码器(CME)解决SAM2的追踪偏差问题。实验表明,该方法在MeViS等基准上达到SOTA性能,仅增加<5M参数,在流式处理场景
2025-11-05 15:20:13
1160
原创 (综述)基于深度学习的制造业表面缺陷检测图像合成方法综述
综述:制造业表面缺陷检测中的图像合成方法,重点探讨了基于计算机图形学和深度学习的解决方案。针对深度学习模型训练中数据不足、不平衡和标注成本高的问题,文章系统比较了两类方法的优缺点:计算机图形学方法可精确控制缺陷参数但成本高;深度学习方法(包括GAN变体和扩散模型)能高效生成多样化数据但存在域差距。研究提出了方法选择框架,并指出混合方法和扩散模型是有前景的方向,为工业缺陷检测提供了实用指南。
2025-11-05 15:19:35
1455
原创 (论文速读)CTRL-O:语言可控的以对象为中心的视觉表征学习
CVPR 2025论文《CTRL-O》提出了一种语言可控的以对象为中心的视觉表示学习方法。针对现有对象中心模型缺乏用户可控性的问题,该研究通过三大创新实现突破:(1)查询驱动的slot初始化;(2)解码器条件化;(3)关键的控制对比损失。实验表明,CTRL-O在COCO数据集上的FG-ARI指标达47.5%,在RefCOCO测试集上实现33.13%的mIoU,显著优于基线方法。该方法可应用于实例级图像生成和视觉问答等下游任务。
2025-11-04 14:55:39
805
原创 (论文速读)通用的视觉基础模型之DINOv3
DINOv3是MetaAI等机构于2025年发布的自监督视觉基础模型,在DINOv2基础上实现重大突破。该模型通过创新的Gram锚定,技术解决了大规模自监督训练中密集特征退化的核心问题,使7B参数模型在全局识别和密集预测任务上均达SOTA。关键技术包括:智能数据策划(17亿图像筛选)、恒定训练调度、RoPE位置编码改进,以及Gram锚定保持特征局部一致性。
2025-11-04 14:54:56
1059
原创 (论文速读)视觉语言模型的无遗忘学习
本文提出PROOF框架,解决视觉语言模型在类增量学习中的灾难性遗忘问题。该框架通过可扩展投影机制(冻结主干网络、添加任务特定投影层)和多模态融合模块(自注意力驱动的跨模态特征调整),在保持预训练知识的同时实现新任务学习。实验表明,PROOF在9个基准数据集上均达到最先进性能,参数效率高(额外参数<10%),且能平衡适应性和泛化性。该研究为大规模模型的持续学习提供了有效解决方案。
2025-11-03 20:00:46
1082
原创 CoDeGAN:用对比学习重新定义GAN中的表示解耦
本文提出了一种名为CoDeGAN(对比解纠缠生成对抗网络)的新方法,用于解决GAN模型中的表示解耦问题。传统方法如InfoGAN通过最大化生成图像与潜在代码间的互信息来实现解耦,但容易导致模式崩溃和生成多样性降低。CoDeGAN的创新点在于将相似性约束从图像域转移到特征域,并结合自监督预训练来学习语义表示。该方法包含三个关键组件:生成器、判别器和编码器网络,并设计了一种新的对比损失函数来优化特征级别的解耦性能。实验结果表明,CoDeGAN在多个基准数据集上优于现有方法,在CIFAR-10上的分类准确率比In
2025-11-03 20:00:17
180
原创 (论文速读)FDConv:用于密集图像预测的频率动态卷积
频率动态卷积(FDConv)来解决传统动态卷积频率响应相似、参数冗余的问题。通过傅里叶域学习固定参数预算并划分为不相交频段组,实现参数高效的多频段权重构建。创新性地引入核空间调制(KSM)和频带调制(FBM),分别在空间和频域实现动态调整。实验表明,FDConv仅增加3.6M参数就在目标检测、分割等任务上超越需要大幅增加参数的方法,且能无缝集成到不同架构中。这项工作为构建高效自适应的视觉模型提供了新思路。
2025-11-02 15:29:45
939
空空如也
YOLOX在训练过程中,如果路径的用户名存在空格,报错了怎么办?(Pytorch)
2024-06-15
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅