图文检索(32):Revisiting Self-Similarity: Structural Embedding for Image Retrieval


发布时间(2023 cvpr)


标题:重新审视自相似性:用于图像检索的结构嵌入

摘要

思想:之前只是关注图像的全局表示,本文加入几何结构
方法:图像的视觉+结构信息引入全局表示
1)特征提取模块
视觉信息:原始图像特征
结构信息:结构嵌入网络(SENet),捕获图像的内部结构并逐渐将它们压缩为密集的自相似性描述符,同时从各种图像中学习不同的结构
2)融合模块
和谐地融合视觉和结构信息,而不会破坏基础结构的原始行为

3. Structural Embedding Networks (SENet)

3.1 problem setup and overview

1)全局嵌入获取:提取CNN网络的中间特征,然后通过全局池化操作聚合到全局嵌入
2)全局嵌入的缺陷:这种操作几乎丧失了图像输入特征图本身的结构信息
3)本文:网络使用 SSC 从特征图中计算自相似性,使用 SSE 和逐像素自相似性描述符对其进行编码,并使用 FFM 将它们与原始特征图融合。

3.2 self-similarity computation

逐像素的自相似性计算来获取结构信息
1)中间特征图F经过非线性得到F’
2)F‘的每个像素点周围的PP的区域的相似度:逐个像素的逐个通道
F:C
H*W
F’:C’HW
自相似性图S:C‘×H×W×P×P

3.3 self-similarity encoder

1)目标:将高维自相似性得分编码为紧凑的自相似性描述符
i.e. S:C‘×H×W×P×P 变成 D:CHW
2)实现方式:SSE块:conv33—BN—RELU
不断将P
P进行缩减,padding=0,所以每次将pp变成(p-2)(p-2)。最后变成1*1
3)线性层映射C‘变成C

3.4 feature fusion module

1)结构描述符D经过BN
2)D+F经过前馈层:Linear–relu–Linear
3)Fs经过GeM池化–whitening–L2得到结构嵌入z

3.5 training objective

1)分类损失
2)对比损失

结论

在本文中,我们提出了一种新颖的框架,该框架利用图像的内部结构在全局嵌入中很好地反映结构信息。为此,我们提出了两个模块。首先,我们提出了自相似性编码模块,该模块以端到端的方式分析图像的内部结构并将其编码为自相似性描述符。我们还提出了特征融合模块,以和谐地融合视觉和结构信息,而不会破坏基础结构的原始行为。在几个代表性基准和密集消融研究中的显着性能改进表明,图像的内部结构也是图像检索的宝贵线索。

当前提供的引用内容并未涉及论文《Revisiting Text-to-Image Evaluation with Gecko: On Metrics, Prompts, and Human Ratings》的相关信息。因此无法基于已有引用完成对该论文的具体总结。 然而,可以提供一些关于该主题的一般性背景知识以及可能的研究方向: ### 论文概述 《Revisiting Text-to-Image Evaluation with Gecko: On Metrics, Prompts, and Human Ratings》主要探讨了文本到图像生成模型评估中的关键问题。具体而言,研究聚焦于以下几个方面: 1. **评价指标**:传统自动化的评价指标(如FID、CLIPScore等)是否能够充分反映生成图像的质量和多样性[^6]。 2. **提示工程**:不同的文本描述如何影响生成图像的效果及其质量评估[^7]。 3. **人类评分**:引入人类主观判断作为补充手段,验证自动化指标的有效性和局限性[^8]。 通过提出一种新的综合框架Gecko,作者试图建立更全面且可靠的评测体系来衡量文本转图片技术的进步程度。 以下是部分实现代码用于计算某些常见视觉相似度分数的例子: ```python from sklearn.metrics.pairwise import cosine_similarity def compute_clip_score(image_features, text_features): """ Computes CLIP Score between image features and corresponding text features. Parameters: image_features (numpy.ndarray): Array of shape (n_samples, n_dimensions). text_features (numpy.ndarray): Array of shape (n_samples, n_dimensions). Returns: float: Average Cosine Similarity score across all samples. """ scores = [] for img_feat, txt_feat in zip(image_features, text_features): sim = cosine_similarity([img_feat], [txt_feat]) scores.append(sim.item()) avg_score = sum(scores)/len(scores) return avg_score ``` 此函数展示了如何利用余弦距离测量两张嵌入空间内的向量之间的接近程度。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值