Greedy Gradient Ensemble for Robust Visual Question Answering

文章提出了GGE框架,针对VQA任务中的语言偏误进行分析,分解为分布误差和捷径误差。GGE通过连续集成有偏差的模型,提升鲁棒性,在VQA-CP上相比于UpDn基准,性能提升了17.34%。实验表明,该方法能更好地利用视觉信息,同时揭示了准确率高并不一定意味着有效利用视觉信息。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

基于贪婪梯度集成的鲁棒视觉问答算法

一、创新点

      (1)对VQA任务中的语言偏误进行分析,将语言偏误分解为分布误差和捷径误差。

                 分布误差:基于问题类型的训练集答案分布

                 捷径误差:指特定问答对的语义相关性。

      (2)提出了一种新的模型不可知的去偏框架:贪婪梯度集成 (Greedy Gradient Ensemble,GGE), 该框架连续集成有偏差的模型,实现鲁棒的VQA。

      (3)在 VQA-CP 上,该方法更好地利用了视觉信息, 在没有额外标注的情况下,相对于简单的 UpDn 基准,获得了 17.34%的性能提升。

二、思想

        利用深度学习中的过拟合现象。数据中有偏的部分被有偏的特征贪婪地过拟合,因此,可以用更理想的数据分布来学习预期的基础模型 , 并专注于有偏模型难以解决的例子。

三、前置实验

    (  · inv:改变人类标注的区域重要性分数

      &nb

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值