VQA-CP v2数据集和VQA v2数据集

本文介绍了一个关于视觉问答(VQA)的竞赛数据集VQA-CP,包含2274张图片的特征向量,涉及65类问题类型。重点讲解了数据结构、样本格式和使用方法,包括`question.json`、`annotations.json`等文件。此外,还讨论了字典、权重初始化和答案评估策略。

VQA-CP

下载链接
问题类型:65个类别

  • Yes/No
  • Num
  • other

答案:如上总体分为3个类别,共有2274
图像:每张图片的36个区域的2048维的特征向量。
FIELDNAMES = [‘image_id’, ‘image_w’,‘image_h’,‘num_boxes’, ‘boxes’, ‘features’]
其中item[‘boxes’]为对应检测框的位置信息 x,y,w,h
item['‘boxes’].shape=(num_boxes,4)
item[‘features’]为对应检测框 在pool5_flat 层的特征
item[‘features’].shape=(num_boxes, feature_dim)
item[‘num_boxes’] 为该张图片对应的检测框数目
文件详细说明:
question.json
字典{"描述信息":"...", "questions":[{"image_id":22222, "question":"Is", "question_id":222334}]}
用法:
annotations.json

"字典"{
   
   "描述信息":"..."
评论 12
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值