Greedy Gradient Ensemble for Robust Visual Question Answering

最新推荐文章于 2025-12-05 14:37:41 发布

原创

最新推荐文章于 2025-12-05 14:37:41 发布 · 379 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#算法 #人工智能 #python

文章提出了GGE框架，针对VQA任务中的语言偏误进行分析，分解为分布误差和捷径误差。GGE通过连续集成有偏差的模型，提升鲁棒性，在VQA-CP上相比于UpDn基准，性能提升了17.34%。实验表明，该方法能更好地利用视觉信息，同时揭示了准确率高并不一定意味着有效利用视觉信息。

基于贪婪梯度集成的鲁棒视觉问答算法

一、创新点

（1）对VQA任务中的语言偏误进行分析，将语言偏误分解为分布误差和捷径误差。

分布误差：基于问题类型的训练集答案分布。

捷径误差：指特定问答对的语义相关性。

（2）提出了一种新的模型不可知的去偏框架：贪婪梯度集成 (Greedy Gradient Ensemble,GGE)，该框架连续集成有偏差的模型，实现鲁棒的VQA。

（3）在 VQA-CP 上，该方法更好地利用了视觉信息，在没有额外标注的情况下，相对于简单的 UpDn 基准，获得了 17.34%的性能提升。

二、思想

利用深度学习中的过拟合现象。数据中有偏的部分被有偏的特征贪婪地过拟合，因此，可以用更理想的数据分布来学习预期的基础模型，并专注于有偏模型难以解决的例子。

三、前置实验

（ · inv:改变人类标注的区域重要性分数

&nb

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

pinkshell_1314

关注关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

2021：Greedy Gradient Ensemble for Robust Visual Question Answering

weixin_42653320的博客

09-02

808

摘要语言偏见是视觉问答中的一个关键性问题，即经常利用数据集偏见而不是图像信息来做最后的决定，导致模型在域外分布数据的糟糕表现和不充分的视觉解释性。本文提出一种新的去偏框架--Greedy Gradient Ensemble(GGE)，结合多个偏见模型以进行去偏见的模型学习。由于贪婪策略，GGE迫使有偏见的模型优先过度拟合有偏见的数据分布，使得基本模型关注于有偏见模型难以解决的例子。实验表明我们的方法更好的利用了视觉信息，并在未使用额外注释的数据集VQA-CP上实现了最先进的表现。一、...

Greedy Gradient Ensemble for Robust Visual Question Answering论文笔记

乄洛尘

08-19

1515

很长一段时间没写博客了，时间真是太紧了，好好学习~ 分享一篇ICCV2021的文章，关于VQA中的bias，评价数据集为VQA-CP-v2和VQA-v2

参与评论您还未登录，请先登录后发表或查看评论

【文献阅读】VQA数据集中的语言偏见研究（V. Manjunatha等人，CVPR，2019）

QQ704630835的博客

08-29

1273

一、文章概况文章题目：《Explicit Bias Discovery in Visual Question Answering Models》文章一作Varun Manjunatha来自adobe，后面两位作者Nirat Saini和Larry S. Davis来自马里兰，Larry S. Davis是Varun Manjunatha读博期间的导师。下面是作者的个人主页： [1]Va...

＜＜视觉问答＞＞2022：SwapMix: Diagnosing and Regularizingthe Over-Reliance on Visual Context in VQA

金克丝的博客

04-27

1476

先看一下下面这篇论文对VQA任务语言偏差的介绍Greedy Gradient Ensemble for Robust Visual Question Answering 摘要虽然VQA发展迅速，但之前的工作对当前VQA模型的健壮性提出了担忧。在这项工作中，我们从一个新的角度研究了VQA模型的稳健性：视觉上下文。我们认为，这些模型过度依赖视觉的上下文部分，即图像中与正确的、应该注意到的对象所不相关的对象来进行预测（就是shortcut bias）。为了衡量模型对视觉上下文的依赖程度并...

计算机视觉论文-2021-07-28

中科院AI算法工程师的博客

08-02

2069

本专栏是计算机视觉方向论文收集积累，时间：2021年7月28日，来源：paper digest 欢迎关注原创公众号【计算机视觉联盟】，回复【西瓜书手推笔记】可获取我的机器学习纯手推笔记！直达笔记地址：机器学习手推笔记（GitHub地址） 1, TITLE:Language Grounding with 3D Objects AUTHORS: Jesse Thomason ; Mohit Shridhar ; Yonatan Bisk ; Chris Paxton ; Luke Zet...

CVPR 2021最全论文开放下载！附pdf下载链接！

中科院AI算法工程师的博客

06-18

1万+

CVPR 2021最全论文开放，附所有pdf下载链接！

（八：2020.08.27）CVPR 2020 追踪之论文纲要（译）

热门推荐

Jojo论文基地

08-27

1万+

CVPR 2019 追踪之论文纲要（修正于2020.08.27）讲在前面论文目录讲在前面论坛很多博客都对论文做了总结和分类，但就医学领域而言，对这些论文的筛选信息显然需要更加精细的把控，所以自己对这1400篇的论文做一个大致从名称上的筛选，希望能找到些能解决当前问题的答案。论文链接建议直接Google论文名，比去各种论文或顶会网站找不知道快捷多少。 Respect！论文目录论文概要 12-in-1 - Multi-Task Vision and Language Repre

『VQA认知』如何理解Bias？

Hoshino Ren的博客

10-30

1701

背景本篇是从认知角度针对VQA领域中Bias现象的一些思考，特此记录下来。 VQA中的Bias一般指的是语言偏置(Language Bias)，它会使得模型在回答问题时依赖于问题与答案之间的表面相关性，忽视图像信息。一个比较经典的例子是，对于问题“图中的香蕉是什么颜色？”，尽管图中所给香蕉是尚未成熟的“绿色”，模型依旧会倾向于预测“黄色”。坏的偏置好的上下文在论文CF-VQA中，作者是这样解读语言偏置(Language Bias)的。 We argue that the language p

Counterfactual Samples Synthesizing for Robust Visual Question Answering阅读笔记

untitled_的博客

09-14

903

当今的VQA模型倾向于捕获训练集中的表层语言相关性，而不能推广到具有不同QA分布的测试集中。为了减少语言偏见，最近的一些工作引入了一个辅助的仅问题模型，以规范化目标VQA模型的训练，并在VQA-CP上实现主导性能。但是，由于设计的复杂性，当前的方法无法为基于集成模型的模型配备理想VQA模型的两个必不可少的特征：1）视觉可解释性：模型在做出决策时应依赖正确的视觉区域。2）问题敏感性：该模型应对所讨论的语言变化敏感。为此，本文提出了一种与模型无关的反事实样本合成（CSS）训练方案。文章链接:CSS 一、文章引

Counterfactual Samples Synthesizing for Robust Visual Question Answering论文笔记

bxg1065283526的博客

05-28

1807

Abstract 尽管视觉问答（VQA）在过去几年中已经取得了令人瞩目的进步，但是当今的VQA模型倾向于捕获训练集中的表层语言相关性，而不能推广到具有不同QA分布的测试集中。为了减少语言偏见，最近的一些工作引入了一个辅助的仅问题模型，以规范化目标VQA模型的训练，并在VQA-CP上实现主导性能。但是，由于设计的复杂性，当前的方法无法为基于集成模型的模型配备理想VQA模型的两个必不可少的特征：1）视觉可解释的：模型在做出决策时应依赖正确的视觉区域。 2）对问题敏感：该模型应对所讨论的语言变化敏感。为此，我们

Ensemble算法之GreedyEnsemble

ziqian的博客

12-08

889

前言我们常说三个臭皮匠顶个诸葛亮，在机器学习领域中将这个理念应用到极致的技术是boosting，将N多的弱分类器组合到一起，达到一个强分类器的效果，主流代表的算法就是xgboost，当然对于这种集成的思想，还有另外一个技术叫做ensemble，我们通过训练出不同算法的最优单模型，然后综合这些单模型的投票结果，输出最终结果。一般来说，ensemble技术主要有两个好处，可以进一步提升模型的性能可以有效降低单模型过拟合的风险本文将介绍一种非常高效的ensemble算法，-GreedyEnsembl

欧几里得距离算法-相似度

weixin_45609702的博客

12-04

178

本文介绍了一个计算欧几里得距离的Java方法。该方法接收两个Double数组作为输入，通过计算对应元素差值的平方和再开方，返回两个数组之间的欧几里得距离值。当输入数组长度不一致时，方法会返回0作为默认值。欧几里得距离算法常用于比较两个数组之间的相似度，是数据分析和机器学习中的基础距离度量方法。

【模式识别与机器学习（8）】主要算法与技术（下篇：高级模型与集成方法）之元学习与集成方法：组合多个学习器来提高整体性能

hiliang521的博客

12-02

865

【模式识别与机器学习（8）】主要算法与技术（下篇：高级模型与集成方法）之元学习

Leetcode 68 搜索插入位置 | 寻找比目标字母大的最小字母

im_AMBER的博客

12-04

1017

你的错误逻辑正确逻辑找到 target 时返回 mid-1找到 target 时，继续向右查找（因为需要「大于」target 的最小字符）target <letters [mid] 时，mid 是候选，需保留，right=mid（左闭右开）或不立即排除 mid循环结束直接返回 letters [0]循环结束后，先判断 left 是否越界：越界则返回 letters [0]，否则返回 letters [left]初始right的取值与「越界判断」不匹配；

完全背包 vs 多重背包的优化逻辑

布心老混子

12-02

325

做题时想到完全背包是可以转化成多重背包的，那么多重背包需要二进制优化，完全背包需要吗？

C++ ⼀级 2024 年 03 ⽉

weixin_46669997的博客

12-05

当 N 为9, 6, 3, 0时，满足条件 N % 3 == 0，因此它们被输出并跟随一个 #。要注意的是，字符串“a+1= ”最后有一个空格，因而输出的内容是：a+1= 2，答案为A。输入21，21%3的结果为0，进入if的分支，因而第4行代码可以被执行。19.【判断题】C++表达式 “10”*2 执行时将报错，因为 “10” 是字符串类型而2是整数类型，它们数据类型不同，不能在一起运算。Cout后面有两个<<，第1个输出字符串5%2=，第2个输出算术运算“5%2”的结果，为1，答案为D。

浅谈：快递物流与算法的相关性（五）

最新发布

Duoya1105的博客

12-05

127

NP-C 的英文全称是 Non-deterministic Polynomial Complete，即多项式复杂程度的非确定性问题。简单的写法是NP=P？，问题就在这个问号上，到底有没有让NP=P的算法，或是如何证明NP≠P。启发式算法的思想是：在不断解决问题的过程中寻找解决问题的最优方案。再举一个通俗的例子：当我们用数字密码解锁手机时，如果我们不知道密码是多少，必须将所有的数字组合依次尝试。这听起来像是一句废话，如果将它抽象一点的表述，就是：能用电脑快速验证一个解的问题，是否也能够用电脑快速地求出解。

2025年全国大学生统计科学与算法编程挑战赛——算法赛道（一）

qq_73044452的博客

12-01

299

摘要：本文包含三个编程问题的解决方案。1) 贪吃蛇问题：通过解析移动指令计算蛇最终所在格子的编号；2) 经济小鱼问题：计算前两局存钱、后两局花钱，最终剩余指定金币的方案数；3) 小理吃甜食问题：模拟多轮糖果挑选过程，计算小理获得的最大总糖果值。每个问题都给出了完整的C++实现代码，涉及字符串处理、数学计算和模拟算法等技术。

[优选算法专题十.哈希表 ——NO.55~57 两数之和、判定是否互为字符重排、存在重复元素]

2401_83386596的博客

12-03

675

两数之和问题的最优解法采用哈希表实现O(n)时间复杂度，通过存储元素值与下标的映射关系，快速查找互补值。字符重排判定问题通过单哈希数组统计字符出现次数，先加后减并实时校验，确保字符种类和数量完全一致。存在重复元素问题使用哈希集合检测重复元素，遍历数组时检查元素是否已存在于集合中。三种解法均利用哈希结构优化查找效率，将时间复杂度从暴力解法的O(n²)降至O(n)，是典型空间换时间策略的工业级实现。

greedy function approximation:a gradient boosting machine

01-12

贪婪函数逼近是一种用于机器学习的算法，它通过逐步逼近最优解来提高模型性能。而梯度提升机（Gradient Boosting Machine，GBM）则是一种常用的贪婪函数逼近方法之一。梯度提升机是一种集成学习算法，它通过构建多个弱分类器，然后将它们组合成一个强分类器来提高模型性能。GBM的核心思想是不断迭代，每一步都试图拟合前一步的残差，以使整体的拟合效果不断提高。在贪婪函数逼近中，GBM通过利用梯度下降来选择最优的分裂点。它会尝试每一个可能的分裂点，并计算出相应的损失函数，然后选择损失函数最小的分裂点作为最优解。这样一步一步地迭代，GBM可以逼近出一个较为准确的函数近似。 GBM在实际应用中表现良好，尤其在处理复杂的非线性关系时效果显著。它可以适应各种类型的数据，包括数值型和类别型数据，还能处理缺失值和异常值。此外，GBM还具有较好的灵活性和鲁棒性。总的来说，贪婪函数逼近中的梯度提升机是一种非常有效的机器学习算法，它通过不断迭代来逼近最优解，以提高模型性能和预测准确度。在实际应用中，GBM已经被广泛应用于各种领域，包括金融、医疗、电商等。