[论文解读 2021-TIP] Revisiting Shadow Detection: A New Benchmark Dataset for Complex World

该研究创建了CUHK-Shadow数据集,包含10500张带标签的复杂场景图片,用于影子分割任务。数据集具有多种挑战性特征,如不同比例的阴影面积、多阴影数量和分布以及低对比度的非阴影区域。提出了Fastshadowdetectionnetwork(FSDNet),利用MobileNetV2作为骨干网络,结合细节增强模块(DEM)以提升阴影检测性能。实验结果表明,FSDNet在保持高效的同时,提高了分割精度。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

在这里插入图片描述

该论文聚焦于影子的分割(segmentation),创新点在于提出新的数据集和一种局部特征增强方法。

创新点1:自建的数据集CUHK-Shadow:

1. 数据集的特点

  • 10500张带标签的图片;更复杂的场景;
  • 包含了投射到背景物体上的投影,也包含了投射到自身的投影;
  • 提供了测试集;
  • 数据集里的图片有5个不同的来源,分别是ADE20K、KITTI、Google MAP、USR、Internet,每个部分都有独立的划分出数据集,在后文作者的实验部分即对总体数据集进行了性能的评估,也分别对五个部分独立地进行了试验评估。
    数据集一览

2. 数据集的复杂性

2.1 阴影面积的相对于图片总面积的占比(更复杂)

在这里插入图片描述

2.2 每幅图片的阴影个数更多、方差更大

在这里插入图片描述

2.3 阴影区域有着更均匀的空间分布

在这里插入图片描述

2.4 非阴影区与阴影区的颜色对比度(比以往的数据集更低)

在这里插入图片描述
PS. 现有的数据集
在这里插入图片描述

3. 评价指标:

3.1 Balanced error rate (BER)【越小越好】

在这里插入图片描述
传统的BER指标用来评价二分类(0/1)结果,于是对指标进行一些改进来适用连续(0~1)的预测结果:
在这里插入图片描述

3.2 f_β^ω【越大越好】

在这里插入图片描述

创新点2:Fast shadow detection network (FSDNet)

在这里插入图片描述

3.1 骨干网络:MobileNet V2【先前已有的工作】

在这里插入图片描述

首先,使用 MobileNet V2 作为具有一系列反向残差瓶颈 (IRB) 的主干来提取多个尺度的特征图。 每个 IRB 包含一个 1×1 卷积、一个 3×3 深度卷积和另一个 1×1 卷积,并通过跳跃连接添加输入和输出特征图。 此外,它在每次卷积后采用批量归一化,在前两次卷积后采用 ReLU6。 其次,我们在主干的最后一个卷积层之后使用方向感知空间上下文 (direction-aware spatial context, DSC) 模块来收集 DSC 特征,其中包含用于识别阴影的全局上下文信息。

3.2 细节增强模块:Detail Enhancement Module (DEM)【独创性工作】

在这里插入图片描述

图 7 显示了细节增强模块(DEM)的结构。 以低级特征 FL 和 DSC 特征 FD 作为输入,它首先通过 1×1 卷积减少 FD 的特征通道数,并将其上采样到 FL 的大小。 然后,我们计算门图(gate map) G 以根据 DSC 特征和低级特征之间的距离来衡量细节结构的重要性:

G = α ∗ l o g ( 1 + ( F L − F D ) 2 ) G=α*log(1+(FL-FD)^2) G=αlog(1+(FLFD)2)

其中 ( F L − F D ) 2 (FL-FD)^2 (FLFD)2表示两个特征之间的距离,由对数函数重新缩放。 然后,引入可学习参数α来调整门图的比例。 最后,我们将门图G与输入的低级特征 FL 相乘以增强空间细节并产生精细的低级特征 FE。这个模块只引入了很少参数(一个1×1的卷积和参数α),所以计算时间可以忽略不计。

3.3 消融实验

在这里插入图片描述

  • basic:直接使用backbone的最后一层直接预测阴影
  • basic+DSC:增加DSC模块聚合全局特征
  • FSDNet-high-only:不使用多尺度的特征,直接使用high-leve特征预测阴影的mask
  • FSDNet w/o DEM:不使用DEM,直接对low-level、middle-level、high-level特征拼接

3.4 模型的对比

在这里插入图片描述

当前提供的引用内容并未涉及论文Revisiting Text-to-Image Evaluation with Gecko: On Metrics, Prompts, and Human Ratings》的相关信息。因此无法基于已有引用完成对该论文的具体总结。 然而,可以提供一些关于该主题的一般性背景知识以及可能的研究方向: ### 论文概述 《Revisiting Text-to-Image Evaluation with Gecko: On Metrics, Prompts, and Human Ratings》主要探讨了文本到图像生成模型评估中的关键问题。具体而言,研究聚焦于以下几个方面: 1. **评价指标**:传统自动化的评价指标(如FID、CLIPScore等)是否能够充分反映生成图像的质量和多样性[^6]。 2. **提示工程**:不同的文本描述如何影响生成图像的效果及其质量评估[^7]。 3. **人类评分**:引入人类主观判断作为补充手段,验证自动化指标的有效性和局限性[^8]。 通过提出一种新的综合框架Gecko,作者试图建立更全面且可靠的评测体系来衡量文本转图片技术的进步程度。 以下是部分实现代码用于计算某些常见视觉相似度分数的例子: ```python from sklearn.metrics.pairwise import cosine_similarity def compute_clip_score(image_features, text_features): """ Computes CLIP Score between image features and corresponding text features. Parameters: image_features (numpy.ndarray): Array of shape (n_samples, n_dimensions). text_features (numpy.ndarray): Array of shape (n_samples, n_dimensions). Returns: float: Average Cosine Similarity score across all samples. """ scores = [] for img_feat, txt_feat in zip(image_features, text_features): sim = cosine_similarity([img_feat], [txt_feat]) scores.append(sim.item()) avg_score = sum(scores)/len(scores) return avg_score ``` 此函数展示了如何利用余弦距离测量两张嵌入空间内的向量之间的接近程度。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值