论文题目:Efficient Deformable ConvNets: Rethinking Dynamic and Sparse Operator for Vision Applications
- 论文地址:https://arxiv.org/abs/2401.06197
- 项目地址:https://github.com/OpenGVLab/DCNv4
摘要
本文提出可变形卷积 v4(DCNv4),这是一种专为多种视觉应用设计的高效算子,它通过去除空间聚合中的 softmax 归一化增强动态性和表达力,并优化内存访问减少冗余操作,相比 DCNv3 收敛更快且前向速度提高三倍多。在图像分类、分割及生成等任务中表现出色,如在潜扩散模型的 U - Net 中替代卷积可提升性能;在 InternImage 模型中替换 DCNv3 形成 FlashInternImage,速度提升 50% - 80% 且性能增强,有望成为未来视觉模型的基础组件。
Part.01 研究贡献
- 优化 DCN 算子设计,去除 DCNv3 空间聚合中的 softmax 归一化,提升动态性和表达能力,使 DCNv4 收敛速度大幅快于 DCNv3 及其他常见算子。
- 深入分析并优化 DCN 内存访问成本,通过多种策略减少冗余工作量和内存指令,显著提升运行速度,使 DCNv4 成为速度领先的核心视觉算子。
- 验证 DCNv4 在多种视觉任务和架构中的有效性与通用性,在不同模型中替代相关模块可提高速度和性能,在生成模型中也展现潜力,为视觉领域研究提供有力工具。
Part.02 模型结构
DCNv4 作为可变形卷积网络的创新升级版本,在结构设计上

最低0.47元/天 解锁文章
940

被折叠的 条评论
为什么被折叠?



