Women also Snowboard: Overcoming Bias in Captioning Models阅读笔记

众所周知,大多数机器学习方法都能捕捉和利用训练数据的偏差。有些偏见对学习有益,有些则有害。具体地说,图像字幕模型倾向于夸大训练数据中存在的偏差(例如,如果一个单词出现在60%的训练句子中,那么在测试时可能在70%的句子中预测到)。本文根据人物的外貌或图片背景来研究生成性别特定的字幕词(例如男人,女人),引入了一种新的均衡器模型,当性别证据被遮挡在场景中时,该模型鼓励性别概率相等,而场景中存在性别证据时,则鼓励模型进行自信的预测。由此产生的模型被迫观察人物,而不是使用上下文线索来做出特定的性别预测。构成本文模型的损失(外观混淆损失和置信度损失)是一般性损失,可以将其添加到任何描述模型中,以减轻描述数据集中不必要的偏差的影响。
一、文章引入
利用上下文线索通常可以提高计算机视觉任务的性能。例如,在视觉描述任务中,如果图像中有计算机,则预测“鼠标”可能更容易。然而,在某些情况下,根据上下文做出决定会导致错误的,甚至可能是冒犯性的预测。本文考虑这样一个场景:生成关于男人和女人的标题。作者提出假设,当描述模型预测性别化的词语,如“man”或“woman”时,应该考虑与被描述人相关的视觉证据,而不是上下文线索。
在这里插入图片描述

图1:本文提出的模型(均衡器)校正图像字幕中的偏差的例子。覆盖的热图显示哪些图像区域对预测性别词最重要。在左边,基线预测性别错误,可能是因为它看的是笔记本电脑(不是人)。在右边,基线正确地预测了性别,但它在预测性别时没有考虑到人,因此是不可接受的。相比之下,本文的模型预测了正确的性别词,并且在预测性别时正确地考虑了人。
为了鼓励描述模型生成较少偏差的字幕,本文引入了均衡器模型。包含两个互补的损失项:外观混淆损失(ACL)和置信度损失(Conf)。外观混淆损失是基于这样的直觉,即给定图像中没有性别证据,描述模型应该无法准确预测性别词。然而,在没有性别证据的情况下,仅仅混淆模型是不够的;还必须鼓励模型在有性别证据时考虑性别证据。当图像中出现性别时,“置信度损失”有助于提高模型的信心 。这些互补的损失使得均衡器模型在缺少性别信息的情况下变得谨慎,在其存在时具有歧视性。

二、模型简介
Equalizer基于以下直觉:如果图像中没有支持性别决定的证据,则模型应该混淆要预测的性别(由外观混淆损失项强制执行),以及如果图像存在性别决定证据,模型应该对其预测充满信心(由“置信度损失”强制执行)。为了训练本文的模型,不仅需要成对的图像I和句子S,而且还需要注释掩码M来指示图像中哪些证据适合确定性别。
2.1 Background: Description Framework
为了生成描述,首先从InceptionV3模型中提取高层图像特征。然后将图像特征用于初始化LSTM隐藏状态。为了开始生成句子,在LSTM中输入一个句子开始标记。在训练过程中,对于随后的每一个时间步,ground truth单词wt都会输入LSTM。在测试时,每个时间步将先前预测的单词wt-1输入到LSTM中。生成在结束序列标记结束时结束。训练过程中加入了标准交叉熵损失(LCE):
在这里插入图片描述
2.2 Appearance Confusion Loss
如果输入图像中没有适当的决策证据,外观混淆损失会鼓励在进行性别决策时混淆基本的描述模型。 为了优化外观混乱损失,需要提供事实依据,表明哪些证据适合特定的性别决策。 期望得到的基本原理是掩码M,对于不影响性别决定的图像区域,其值为1;对于确定性别时应考虑的图像区域,其值为0。 掩码与原始图像的Hadamard乘积“I⊙M”会产生一个新图像I’,其中去除了实验人员认为适合分类的性别信息。 直观上,对于没有性别信息的图像,预测男人或女人的概率应该相等。
为了定义外观混淆损失,首先定义一个混淆函数(C),该函数在预测的单词p(˜wt)、一组女性性别词(gw)和一组男性性别词(gm)上运行:
在这里插入图片描述
实际上,gw只由单词“woman”组成,同样地,gm只包含单词“man”。在考虑的数据集中,这些是迄今为止最常用的性别词,使用这些“集合”的结果与使用更完整的集合的结果相似。
将外观混淆损失(LAC)定义为:
在这里插入图片描述
其中1是指示变量,表示wt是否是性别词。
对于与图像I’相对应的剩余非性别词,应用标准交叉熵损失来鼓励模型讨论I’中仍然可见的对象。除了鼓励句子在性别信息被删除的情况下与图像相关,这也鼓励模型学习不依赖性别信息的单词“dog”和“fisbee”的表示。
2.3 Confident Loss
除了不确定性别证据何时被掩盖之外,作者鼓励模型在存在性别证据时保持自信。因此,引入了置信度损失项,这有助于模型正确预测性别词。
置信度损失鼓励存在性别信息的图像I上预测性别单词的概率较高。 给定函数FW和FM,分别测量模型对男人和女性单词的自信程度,将置信度损失写为:
在这里插入图片描述
为了测量预测性别词的可信度,考虑男性和性别词的预测概率之间的商:
在这里插入图片描述
当模型对性别预测有信心时,例如对于“woman”一词而言,“woman”一词的概率应大大高于“man”一词的概率,这将导致FW值较小,从而造成较小的损失。考虑预测概率之间的商的一个很好的特性是:鼓励模型区分性别词,而不强迫模型预测性别词。例如,如果模型预测在“woman”图像上“man”的概率是0.2,“woman”的概率是0.5,“preson”的概率是0.3,那么置信度损失就会很低。然而,该模型仍然能够预测性别中性词,比如“person”的概率相对较高。这与其他可能的损失不同,比如在交叉熵损失中对性别词赋予更大的权重,这迫使模型预测“男人”/“女人”词,并惩罚中性词。
2.4 The Equalizer Model
最终模型是上述所有损失的线性组合:
在这里插入图片描述
三、实验结果
在这里插入图片描述

表1:在MSCOCO-Bias 和MSCOCO-Balanced测试集上描述男性和女性的错误率。
在这里插入图片描述
表2:MSCOCO-Bias数据集的每类精确度
在这里插入图片描述
图3:多基线与本文模型的定性比较。在最上面的例子中,保守的(“person”)比错误的(“man”)好,因为性别并不明显。在下面的例子中,基线看到的是错误的视觉证据。
四、结论
本文提出的均衡器模型可以减少字幕的偏差:它不仅可以降低预测性别词的错误率,而且在测试集中的性别分布与训练集不一致的情况下,它的性能也很好。另外,作者观察到均衡器在对性别不自信时会产生中性词(比如“人”)。此外,证明了均衡器在预测性别词时关注的是人类,而不是关注其他图像背景。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值