量化图像的"概念相似性"
在计算机视觉与模式识别会议(CVPR 2024)上提出的一项研究中,我们介绍了一种测量两幅图像之间概念距离的新方法。该方法在两种不同方式下使用大型视觉语言模型:首先,用它生成每个图像的不同长度的多个描述;然后用它计算每个描述指向任一图像的概率。
核心思路
该方法的核心思想是评估描述长度函数的可区分性:如果两个图像可以通过简短描述轻松区分,则它们不太相似;但如果需要大量文本才能可靠地区分彼此,则它们必定相似。由于该方法依赖于逐渐细化的自然语言描述,因此也具有可解释性:人类观察者可以轻松确定图像获得特定相似性评分的确切原因。
在评估中,将该方法与使用对比学习嵌入的最先进图像相似度测量技术进行了比较,在两个由人类标注者根据相似度评分的数据集上,新方法预测人类标注结果的平均效果提高了9%。
概念相似性定义的挑战
定义概念距离度量面临三个主要挑战:
-
随机性主导:任何两幅图像都会存在大量微小差异,这些差异会压倒结构相似性,因此将概念相似性映射到像素值相似性很困难
-
无规范属性:图像中哪些属性对概念相似性重要无法先验指定:有时物体的颜色、场景的位置或文本的字体可能无关紧要;有时可能至关重要
-
对抗性可区分性:试图阻碍相似性检测器的人可能对图像进行表面修改,希望足够多的此类差异会降低相似性度量
方法优势
新方法解决了所有这些困难。因为它首先构建图像的准确描述,然后才考虑描述之间的差异,所以没有提供对手可以利用的基本可区分性概念。而且由于这些描述从简短开始,必然忽略了随机变化。
研究还正式证明了概念相似性没有规范属性的观点:如果方法枚举足够多的图像属性来识别任何概念相似性实例,那么它将枚举如此多的属性,以至于在考虑的任何两个样本之间找到相似性,从而使相似性和差异的概念变得空洞。
技术实现
在该模型中,从假设空间和图像空间开始;实际上使用自然语言描述作为假设,但模型可以容纳任何其他选择,只要假设具有相关的长度概念。
接下来定义一个解码器,计算给定假设指向给定图像的概率。该模型对解码器的选择是不可知的,但实际上使用大型视觉语言模型。
概念相似性的概念取决于使用各种长度的自然语言假设描述图像的效果。随着描述变长,改进的速率反映了图像的概念内容。随机图像需要长字符串才能充分描述以彼此区分。而"穿着粉色芭蕾舞裙骑独轮车的斗牛犬"虽然不寻常,但不是很随机,因为它可以简洁地描述。
对于给定的假设长度,希望找到最大化目标图像似然度的描述。然而,可能的描述空间巨大,无法有效搜索,而且是离散的,无法通过梯度下降探索。因此稍微放宽最优性要求,转而识别有界长度的假设分布,这些假设可能是目标的描述。这将发现有效描述的挑战转化为可处理的优化问题。
距离度量定义
给定两幅图像A和B,以及每幅图像给定长度的近最优描述,首先计算A假设描述两幅图像A和B的概率;然后取这些概率之间的差异。对B假设重复此过程。两个差异的平均值是该特定假设长度的图像之间的概念距离。
该度量基于该距离随假设长度变化的速率。变化缓慢表示相似:图像难以区分;快速变化表示它们易于区分。因此,当需要使用单个值对两幅图像的相似性进行评分时,使用假设长度范围内距离函数曲线下的面积。
未来工作
虽然实验验证了方法的实用性,但目前仅使用视觉语言模型的文本来测量距离。直接测量视觉属性可能会提供额外的区分层,同时希望不会面临对随机性敏感或对抗性操纵的风险。正在持续工作中探索这种可能性。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)
1万+

被折叠的 条评论
为什么被折叠?



