- 博客(13)
- 收藏
- 关注
原创 FDConv精读:动态卷积的革命
综上所述,FDConv为动态卷积乃至更广泛的计算机视觉领域带来了新的思路,通过从频域视角出发,设计出了一套既高效又灵活的解决方案,有望推动未来视觉模型的发展。
2026-01-07 21:50:40
687
原创 Mask2Former论文精读
这些可学习的查询特征在送入Transformer解码器之前,就已经具备了类似于“区域提议网络”的功能,能够生成初步的掩码提议(Mask Proposals),这有效地提升了模型生成高质量分割提议的能力。Mask2Former的卓越性能并非纸上谈兵,其在多项基准测试和严谨的消融实验中均展现了领先的实力和设计上的精妙。表3的数据表明,即使与语义分割领域的特化模型(如BEiT-UperNet的57.0 mIoU)相比,Mask2Former也毫不逊色,证明了其通用架构在单一任务上的竞争力。
2025-12-25 10:43:29
901
原创 何恺明NeurIPS 2025演讲:目标检测的三十年传奇
自 2015 年问世以来,它早已超越了一篇论文的范畴,成为一座真正的里程碑。它在不同层级的特征图上进行密集预测,从而能够自然地处理不同尺寸的物体(小的物体在浅层高分辨率特征图上检测,大的物体在深层低分辨率特征图上检测),在速度和精度之间取得了出色的平衡。在2001年,它首次实现了实时的、高精度的人脸检测,并迅速被集成到无数的数码相机和消费电子产品中,我们后来习以为常的“拍照自动识别人脸”功能,其鼻祖便是它。在一个高度优化的深度学习流水线中,这个“古典”的、格格不入的模块,成了那块最显眼的、缺失的拼图。
2025-12-23 16:13:12
628
原创 MaskFormer论文精读:分割的标志性论文
具体的性能对比如下表所示。MaskFormer不仅简化了图像分割领域的复杂性,实现了“一模型多任务”的目标,而且在多个大规模数据集上取得了当时SOTA性能,尤其在类别数量较多的场景下,其相对于传统的像素级分类方法展现出更大的优势。从表中可以看出,MaskFormer在PQ、PQTh(thing类别全景质量)和PQSt(stuff类别全景质量)等关键指标上均实现了显著提升,尤其是在PQSt上的表现,进一步印证了掩码分类在处理“stuff”类别上的优势,避免了边界框在处理无定形物体时的局限性。
2025-12-22 16:27:44
898
原创 论文精读:FUnIE-GAN
水下视觉感知是机器人领域公认的核心挑战之一。光在水中的散射和吸收效应,会导致图像产生严重的色彩偏差、低对比度和细节损失,从而严重影响各类视觉算法的性能。然而,现有的图像增强方法大多计算成本过高,难以在资源受限的水下机器人平台上进行实时部署。为了解决这一难题,本文提出了 FUnIE-GAN:一个基于条件生成对抗网络的轻量级、高效率水下图像增强模型。它摒弃了复杂的物理建模,通过端到端学习的方式,直接构建从降质图像到清晰图像的映射。
2025-12-21 13:18:02
1183
原创 原型学习——语义分割
这篇论文从一个非常新颖的角度重新思考了语义分割问题:与其像传统方法那样学一个分类器,不如直接在嵌入空间里找“哪个原型离我最近”。作者提出了一种非参数化的原型匹配方法,不再依赖可学习的分类头,而是让每个类别拥有多个原型,通过最近邻匹配实现像素分类。这种做法不仅更轻量,而且更容易扩展到大规模类别,甚至适合 open-vocabulary 场景。为了让嵌入空间学得更好,作者设计了三种配合使用的损失函数,分别负责“分清楚谁是谁”、“拉近对的,推远错的”、“增加紧凑性”。
2025-06-17 18:18:48
887
原创 结构体介绍(声明、成员的访问、自引用、初始化与定义、内存对齐、传参)
结构(体)是一些值的集合,这些值被称为成员变量。结构的每个成员变量可以具有不同类型。结构的成员可以是标量、数组、指针,甚至是其他结构体。声明了结构体后,对变量的定义就很简单了。
2023-11-03 17:40:12
3203
原创 浮点型(小数)在内存中的储存
因为1<=M<=2,所以所有的M都可以写成1.xxxx的形式,所以IEEE 754规定在储存时,这个1被舍去,只储存小数点后的数字(这样就可以多储存一位数据),在读取的时候再把这个1加上。但是在科学计数法中E是可以出现负数的,于是为了表示负数,我们规定E在储存时必须加上一个数,对于8位的E这个数是127,对于11位的E,这个数是1023.首先,E是一个无符号整数,所以当E为八位时,取值范围是0~255,当E是11位时,取值范围是0~2047。(-1)^S表示符号位,当S=0,V为正数;当S=1,V为负数。
2023-10-27 16:49:07
220
1
原创 大小端储存
对于一个十六进制表示的数据a=11223344 那么从左边数(也就是11的一端)就是数据的高位,从右边数(也就是44一端)就是数据的低位。然后将值赋给b,如果是大端则b取得是a的高位也就是1,如果是小端,则b取的是a的低位也就是0,然后返回b的值就完成了检查。他的存储是按44、33、22、11四个字节由低地址到高地址进行存储,所以vs是小端存储模式。:指数据的低位保存在内存的低地址中,而数据的高位,,保存在内存的高地址中。:指数据的低位保存在内存的高地址中,而数据的高位,保存在内存的低地址中。
2023-10-27 16:20:18
164
1
原创 原码、补码、反码的概念及转换
其实,cpu只有加法计算器,而如果全按原码储存的话,减法就没有办法实现了,而都转化成补码之后,计算机在计算时只需要对补码进行加法处理,然后根据数值的正负决定符号位,就可以实现减法的功能,这样就不需要额外的硬件来支持减法了。数值位对于正数来说原码、反码和补码相同,负数的原码、反码和补码不同,计算规则如下。负数的反码是符号位不变,其他位置按位取反(即1变成0,0变成1)其中符号位是二进制序列的第一个数字(0表示正数,1表示负数)原码、补码和反码是计算机对整数的二进制表示方法。为什么要设计这三个东西?
2023-10-27 15:32:30
4412
12
原创 三子棋(入门游戏思路及代码实现)
由于数组实际的下标为0-2,而我们习惯上认为格子是1-3,所以通过对x、y减一的操作使没有编程基础的玩家也能很好的进行游戏。这里也可以通过循环实现,循环实现的代码可以打印任意格式的棋盘,但是较这个来说更加复杂,就不赘述了。注:虽然在一个源文件中也可以实现所有功能,但是为了整体的逻辑性和整洁性,我这里将整个游戏分开在。相信大家都看到了上面的代码case 1 中有一个game的函数,这个就是我们游戏的主体函数。相信大家在上课的时候都曾和同桌偷偷的玩过一种九宫格的神秘小游戏(也就是今天要说的三子棋)
2023-10-07 16:40:56
92
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅