Visual Reasoning | GQA Dataset

最新推荐文章于 2024-09-08 21:40:28 发布

原创最新推荐文章于 2024-09-08 21:40:28 发布 · 1k 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

Reasoning 专栏收录该内容

4 篇文章

订阅专栏

参考博客：
https://blog.youkuaiyun.com/hester_hester/article/details/103238649
https://zhuanlan.zhihu.com/p/64183181

CLEVR虽然消除了dataset bias，但是人工合成的图像和问题组成，多样性较低，类和属性较少，容易使模型记住所有组合。
因此提出GQA，由真实图像组成，并在一个大的语义空间中运行，更具挑战性。

GQA数据集围绕真实图像推理、场景理解和合成问题回答等一系列任务，由113K张图像和22M个不同的问题组成。该数据集衡量了一些列推理技能。reasoning skills such as object and attribute recognition, transitive relation tracking, spatial reasoning, logical inference and comparisons.

Introduction

三个贡献：
在这里插入图片描述

Dataset

借鉴了CLEVR数据集， structured representations and detailed annotations for images and questions
建立了scene graph来表示物体，属性，和关系。同时和CLEVR一样也有functional program
在这里插入图片描述

具体的生成方式，并且提出一系列metrics，在GQA task进行综合评估
在这里插入图片描述

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。