28、多模态视觉问答与昆虫直升机设计：技术融合与创新探索

多模态视觉问答与昆虫直升机设计

g8f9d0s1a2

于 2025-09-14 11:50:41 发布

阅读量26

点赞数

CC 4.0 BY-SA版权

分类专栏：电气与电子工程创新前沿文章标签：多模态视觉问答昆虫直升机 VizWiz数据集

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/g8f9d0s1a2/article/details/152249772

电气与电子工程创新前沿专栏收录该内容

43 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

多模态视觉问答与昆虫直升机设计：技术融合与创新探索

多模态视觉问答：基于VizWiz数据的探索

在视觉问答（VQA）领域，利用VizWiz数据进行多模态视觉问答是一项具有重要意义的研究。VQA系统若要成为盲人的视觉助手，需在源自盲人的图像和问题上进行训练。VizWiz便是首个为此目的引入的真实世界VQA数据集。

数据集特点与挑战

VizWiz数据集来自使用VizWiz应用的盲人摄影师，他们可拍照并记录与图像相关的问题。不过，该数据集存在诸多挑战：
- 答案不确定性高 ：图像常模糊，问题可能与图像无关，导致标注者之间分歧大。
- 对话式问题 ：问题是用户真实记录，包含问候语和标点，需预处理去除。
- 规模相对较小 ：源于真实场景，数据收集困难，部分含隐私信息的数据需过滤。
- 可回答与不可回答类别的不平衡 ：图像质量不佳或问题不相关，导致不可回答问题数量较多。

方法与流程

为解决这些问题，研究者采用了一系列方法：
1. 图像预处理 ：将图像调整为240 * 240尺寸，中心裁剪，对输入通道进行归一化处理。
2. 图像特征提取 ：使用预训练的EfficientNet - B1模型，输出1280 * 8 * 8的特征图。
3. 问题预处理 ：将问题转换为小写，去除标点，分词并形成词索引，未知词用UNK标记。

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。