Simultaneously Localize, Segment and Rank the Camouflaged Objects阅读笔记

本文提出了一种联合定位和分割的框架,用于处理伪装对象识别问题。该框架能够生成具有高对比度的discriminative region,并利用反向关注机制提高预测准确性。此外,还介绍了一个新的数据集CAM-FR,它包含了不同难度级别的伪装对象。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

CVPR 2021
Yunqiu Lv, Jing Zhang, Yuchao Dai, Aixuan Li, Bowen Liu, Nick Barnes, Deng-Ping Fan
论文地址

一、简介

提出了Joint localization and segmentation框架,其中,Fixation Decoder生成discriminative region,该区域与周围的环境有更高的对比度,其实也就是大致的伪装对象的位置。Camouflage Decoder生成最终的预测图,使用反向关注的思想,来获得结构化的信息。

提出了Inferring the ranks of camouflaged objects框架,该框架结合了定位、分割和分等级三个功能。

提出了伪装对象排名(COR)和伪装对象定位(COL)这两个新任务,以估计伪装对象的难度并识别伪装对象明显的区域。

二、方法

2.1 数据集

我们从CAMO数据集和COD10K数据集中选取一些图片进行定位标注和难度排名分级,并将该这个新的数据集称为CAM-FR。关于难度排名分级,是假设观看者找到伪装对象所需要的时间长短来确定的。

CAM-FR数据集包含2000张训练图像和280张测试图像。训练图像有1711张来自COD-10K数据集,有289张来自CAMO数据集。测试图像有238张图像来自COD-10K数据集,有42张图像来自CAMO图像。

CAM-FR数据集的难度排名一共有三个级别,等级1是最难的,等级3是最简单的。

2.2 Joint localization and segmentation

在这里插入图片描述

我们将“discriminative region”视为伪装对象明显的区域,该区域与周围的环境有更高的对比度。基于该发现,我们设计了一个联合伪装目标定位和分割的网络,如图Figure3。

使用ResNet50作为backbone,给定输入图像I,送入backbone,在不同阶段得到特征映射S1,S2,S3和S4。

使用Fixation Decoder获得Fixation Map(即discrimination region),该结果将与ground truth进行损失计算。然后将Fixation Map送入反向关注框架。

反向关注框架有一个与ResNet50相同的网络,然后使用Camouflage Decoder得到Camouflage Map。具体的来说,令Fixation Map为F,将1-F作为注意力与S1特征相乘。然后通过Camouflage Decoder得到Camouflage Map。

解码器含有DRA和ASPP模块。我们对dual attention module(DRA)模块进行修改,以获得具有位置注意力模块(PAM)和通道注意力模块(CAM)的鉴别特征。ASPP是denseaspp module,是为了实现多尺度接收。

在这里插入图片描述

Fixation Map使用二进制交叉熵损失,Camouflage Map使用像素位置感知损失,以产生更高结构精度的预测。

2.3 Inferring the ranks of camouflaged objects

在这里插入图片描述

根据Mask RCNN构造伪装等级模型,旨在共同分割伪装对象并推断它们的等级。

使用ResNet50作为backbone进行特征提取,然后使用RPN将整个图像的特征作为输入,并检测可能包含伪装实例的区域,即ROI。RPN包含两个分支,一个是分类分支,用来确定候选边界框是否包含伪装对象;另一个是回归分支,用来得到对象的边界框。

多任务损失如下:

在这里插入图片描述

在这里插入图片描述

使用label similarity来进行约束,这个约束是当伪装等级被错误的分为3而不是真实等级1的时候,应该具有更大的损失。

如图Fig4所示,预测等级是2,ground truth等级为0,那么我们获得惩罚SP(2,0)=0.4,并将这个值乘以Lrank得到损失。

三、实验

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

### LightGBM 参数详解 #### 主要参数概述 LightGBM 的主要参数可以分为几大类:通用参数、数据相关参数、目标函数参数和学习控制参数。这些参数共同决定了模型的行为和性能。 - **num_leaves**: 控制树的最大叶子数,默认值为 31。增加此数值可以使模型更复杂,但也可能导致过拟合[^1]。 - **max_depth**: 设置树的最大深度,默认情况下不设置最大深度。通常与 `num_leaves` 配合使用来防止过拟合。 - **learning_rate (eta)**: 学习率,默认值为 0.1。较小的学习率意味着需要更多的迭代次数才能达到相同的训练效果,但能获得更好的泛化能力。 - **n_estimators**: 树的数量,默认值为 100。更多数量的树可能会提高准确性,同时也增加了计算成本。 - **objective**: 定义学习任务的目标函数,常见的选项包括二分类 (`binary`) 和多分类 (`multiclass`) 等。 ```python import lightgbm as lgb params = { 'boosting_type': 'gbdt', 'objective': 'binary', 'metric': {'l2', 'auc'}, 'num_leaves': 31, 'learning_rate': 0.05, 'feature_fraction': 0.9 } ``` #### 自定义评估函数 feval 为了实现更加灵活的评价标准,在 Python API 中可以通过传递额外的关键字参数 `feval` 来指定自定义的评估函数。该函数接收真实标签 y_true 和预测概率 p_pred,并返回名称、分数及是否越大越好三个部分组成的元组。 ```python def custom_metric(y_true, y_pred): """Custom evaluation metric.""" score = some_custom_scoring_function(y_true, y_pred) return 'custom_score', score, True # 或者 False 如果越低越好 bst = lgb.train(params, train_data, valid_sets=[validation_data], feval=custom_metric) ``` #### 性能优化技巧 针对不同的应用场景,调整上述提到的核心超参能够有效提升模型的表现: - 对于大规模稀疏特征的数据集,适当减少 `min_child_samples` 可以帮助构建更深更复杂的树结构; - 当面临类别不平衡问题时,考虑引入权重机制或修改损失函数中的正负样本比例因子; - 利用交叉验证技术寻找最优组合,比如通过 GridSearchCV 或 RandomizedSearchCV 进行网格搜索/随机搜索。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Ma lidong

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值