[深度学习从入门到女装]Revisiting Dilated Convolution: A Simple Approach forWeakly- and Semi- Supervised Semant

本文介绍了一种使用空洞卷积进行弱监督和半监督语义分割的方法,通过多率空洞卷积增强感受野,利用分类激活图生成定位图,并结合全卷积网络进行训练。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

论文地址:Revisiting Dilated Convolution: A Simple Approach forWeakly- and Semi- Supervised Semantic Segmentation

 

这是CVPR2018的一篇弱监督、半监督的语义分割的文章

弱监督Weakly-supervised Learning:所给样本只有弱标签,要学习出强标签。在这个分割图像上就是已经需要分割图像的类别,需要将该类在图像中分割出来

半监督Semi-supervised Learning:只有少量样本有标签,需要使用这少量的有标签样本和大量没有标签的样本进行学习。

Multi-dilated Convolution for Localization

这篇文章使用了空洞卷积,文中提到说,传统的卷积可以精确的映射到要识别的物体身上,但是缺少对于相关物体的映射,但是增大卷积核又会导致运算量增大,所以提出了使用空洞卷积,在不增加计算量的情况下增大感受野,可以映射到相关物体的身上。为了更好的综合各个感受野,本文使用了多个rate的空洞卷积

 

随后对于多个rate(d = 3, 6, 9)的空洞卷积层通过classification activation maps (CAM)得到 corresponding localization maps

虽然使用的rate都比较小,但是还是会有一些不相关的区域被映射上,所以为了平衡这个问题,本文将多个rate得到的corresponding localization maps进行加权平均,得到最终的final corresponding localization maps,就会减少不相关区域

 

Weakly- and Semi- Segmentation Learning

整个网络结构如图所示

loss有两个部分组成,一个是使用final corresponding localization maps生成的分割图(a),一个是使用分割网络FCN得到的最后score map中对应的class score map和背景图的score map进行agrmax得到的分割图(b)

运用(a)(b)组成联合的loss来进行弱监督学习,训练FCN

loss:

其中I为已知类别的需要分割的分割图,是经过FCN网络(参数为)得到的分割结果

为通过final corresponding localization maps生成的分割图(a)

为通过分割网络FCN得到的最后score map中对应的class score map和背景图的score map进行agrmax得到的分割图(b)

 

Semi-supervised Learning

这篇文章采用的半监督学习方式就是将弱监督和少量完整标签的图像的强监督学习进行参数分享来达到弱监督的方式

loss:

其中为人标注的像素级分割图

当前提供的引用内容并未涉及论文《Revisiting Text-to-Image Evaluation with Gecko: On Metrics, Prompts, and Human Ratings》的相关信息。因此无法基于已有引用完成对该论文的具体总结。 然而,可以提供一些关于该主题的一般性背景知识以及可能的研究方向: ### 论文概述 《Revisiting Text-to-Image Evaluation with Gecko: On Metrics, Prompts, and Human Ratings》主要探讨了文本到图像生成模型评估中的关键问题。具体而言,研究聚焦于以下几个方面: 1. **评价指标**:传统自动化的评价指标(如FID、CLIPScore等)是否能够充分反映生成图像的质量和多样性[^6]。 2. **提示工程**:不同的文本描述如何影响生成图像的效果及其质量评估[^7]。 3. **人类评分**:引入人类主观判断作为补充手段,验证自动化指标的有效性和局限性[^8]。 通过提出一种新的综合框架Gecko,作者试图建立更全面且可靠的评测体系来衡量文本转图片技术的进步程度。 以下是部分实现代码用于计算某些常见视觉相似度分数的例子: ```python from sklearn.metrics.pairwise import cosine_similarity def compute_clip_score(image_features, text_features): """ Computes CLIP Score between image features and corresponding text features. Parameters: image_features (numpy.ndarray): Array of shape (n_samples, n_dimensions). text_features (numpy.ndarray): Array of shape (n_samples, n_dimensions). Returns: float: Average Cosine Similarity score across all samples. """ scores = [] for img_feat, txt_feat in zip(image_features, text_features): sim = cosine_similarity([img_feat], [txt_feat]) scores.append(sim.item()) avg_score = sum(scores)/len(scores) return avg_score ``` 此函数展示了如何利用余弦距离测量两张嵌入空间内的向量之间的接近程度。
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值