烟生a-优快云博客

原创 FDConv精读：动态卷积的革命

综上所述，FDConv为动态卷积乃至更广泛的计算机视觉领域带来了新的思路，通过从频域视角出发，设计出了一套既高效又灵活的解决方案，有望推动未来视觉模型的发展。

2026-01-07 21:50:40 687

这些可学习的查询特征在送入Transformer解码器之前，就已经具备了类似于“区域提议网络”的功能，能够生成初步的掩码提议（Mask Proposals），这有效地提升了模型生成高质量分割提议的能力。Mask2Former的卓越性能并非纸上谈兵，其在多项基准测试和严谨的消融实验中均展现了领先的实力和设计上的精妙。表3的数据表明，即使与语义分割领域的特化模型（如BEiT-UperNet的57.0 mIoU）相比，Mask2Former也毫不逊色，证明了其通用架构在单一任务上的竞争力。

2025-12-25 10:43:29 901

原创何恺明NeurIPS 2025演讲：目标检测的三十年传奇

自 2015 年问世以来，它早已超越了一篇论文的范畴，成为一座真正的里程碑。它在不同层级的特征图上进行密集预测，从而能够自然地处理不同尺寸的物体（小的物体在浅层高分辨率特征图上检测，大的物体在深层低分辨率特征图上检测），在速度和精度之间取得了出色的平衡。在2001年，它首次实现了实时的、高精度的人脸检测，并迅速被集成到无数的数码相机和消费电子产品中，我们后来习以为常的“拍照自动识别人脸”功能，其鼻祖便是它。在一个高度优化的深度学习流水线中，这个“古典”的、格格不入的模块，成了那块最显眼的、缺失的拼图。

2025-12-23 16:13:12 628

原创 MaskFormer论文精读：分割的标志性论文

具体的性能对比如下表所示。MaskFormer不仅简化了图像分割领域的复杂性，实现了“一模型多任务”的目标，而且在多个大规模数据集上取得了当时SOTA性能，尤其在类别数量较多的场景下，其相对于传统的像素级分类方法展现出更大的优势。从表中可以看出，MaskFormer在PQ、PQTh（thing类别全景质量）和PQSt（stuff类别全景质量）等关键指标上均实现了显著提升，尤其是在PQSt上的表现，进一步印证了掩码分类在处理“stuff”类别上的优势，避免了边界框在处理无定形物体时的局限性。

2025-12-22 16:27:44 898

原创论文精读：FUnIE-GAN

水下视觉感知是机器人领域公认的核心挑战之一。光在水中的散射和吸收效应，会导致图像产生严重的色彩偏差、低对比度和细节损失，从而严重影响各类视觉算法的性能。然而，现有的图像增强方法大多计算成本过高，难以在资源受限的水下机器人平台上进行实时部署。为了解决这一难题，本文提出了 FUnIE-GAN：一个基于条件生成对抗网络的轻量级、高效率水下图像增强模型。它摒弃了复杂的物理建模，通过端到端学习的方式，直接构建从降质图像到清晰图像的映射。

2025-12-21 13:18:02 1183

原创原型学习——语义分割

这篇论文从一个非常新颖的角度重新思考了语义分割问题：与其像传统方法那样学一个分类器，不如直接在嵌入空间里找“哪个原型离我最近”。作者提出了一种非参数化的原型匹配方法，不再依赖可学习的分类头，而是让每个类别拥有多个原型，通过最近邻匹配实现像素分类。这种做法不仅更轻量，而且更容易扩展到大规模类别，甚至适合 open-vocabulary 场景。为了让嵌入空间学得更好，作者设计了三种配合使用的损失函数，分别负责“分清楚谁是谁”、“拉近对的,推远错的”、“增加紧凑性”。

2025-06-17 18:18:48 887

原创一篇文章深入理解指针

定义指针的方式是类型+*+指针变量名。

2024-08-04 16:20:09 2035 1

原创结构体介绍（声明、成员的访问、自引用、初始化与定义、内存对齐、传参）

结构（体）是一些值的集合，这些值被称为成员变量。结构的每个成员变量可以具有不同类型。结构的成员可以是标量、数组、指针，甚至是其他结构体。声明了结构体后，对变量的定义就很简单了。

2023-11-03 17:40:12 3203

原创 memcpy VS memmove

void *

2023-11-03 16:21:56 146

原创浮点型（小数）在内存中的储存

因为1<=M<=2,所以所有的M都可以写成1.xxxx的形式，所以IEEE 754规定在储存时，这个1被舍去，只储存小数点后的数字（这样就可以多储存一位数据），在读取的时候再把这个1加上。但是在科学计数法中E是可以出现负数的，于是为了表示负数，我们规定E在储存时必须加上一个数，对于8位的E这个数是127，对于11位的E，这个数是1023.首先，E是一个无符号整数，所以当E为八位时，取值范围是0~255，当E是11位时，取值范围是0~2047。(-1)^S表示符号位，当S=0，V为正数；当S=1，V为负数。

2023-10-27 16:49:07 220 1

kinndya的博客

原创 FDConv精读：动态卷积的革命

原创 Mask2Former论文精读