多模态视觉问答与昆虫直升机设计:技术融合与创新探索
多模态视觉问答:基于VizWiz数据的探索
在视觉问答(VQA)领域,利用VizWiz数据进行多模态视觉问答是一项具有重要意义的研究。VQA系统若要成为盲人的视觉助手,需在源自盲人的图像和问题上进行训练。VizWiz便是首个为此目的引入的真实世界VQA数据集。
数据集特点与挑战
VizWiz数据集来自使用VizWiz应用的盲人摄影师,他们可拍照并记录与图像相关的问题。不过,该数据集存在诸多挑战:
- 答案不确定性高 :图像常模糊,问题可能与图像无关,导致标注者之间分歧大。
- 对话式问题 :问题是用户真实记录,包含问候语和标点,需预处理去除。
- 规模相对较小 :源于真实场景,数据收集困难,部分含隐私信息的数据需过滤。
- 可回答与不可回答类别的不平衡 :图像质量不佳或问题不相关,导致不可回答问题数量较多。
方法与流程
为解决这些问题,研究者采用了一系列方法:
1. 图像预处理 :将图像调整为240 * 240尺寸,中心裁剪,对输入通道进行归一化处理。
2. 图像特征提取 :使用预训练的EfficientNet - B1模型,输出1280 * 8 * 8的特征图。
3. 问题预处理 :将问题转换为小写,去除标点,分词并形成词索引,未知词用UNK标记。
多模态视觉问答与昆虫直升机设计
超级会员免费看
订阅专栏 解锁全文
1292

被折叠的 条评论
为什么被折叠?



