《Cross-Modal Retrieval Augmentation for Multi-Modal Classification》论文学习

waiall

于 2021-05-12 21:24:09 发布

阅读量415

点赞数

分类专栏： java 文章标签：计算机视觉

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/uestc_huhu/article/details/116721163

版权

java 专栏收录该内容

28 篇文章

订阅专栏

在这里，我们将探索使用图像的非结构化外部信息源及其相应的字幕来改进视觉问答(VQA)。
首先，我们训练了一种新的对齐模型，将图像和字幕嵌入到相同的空间中，使图像-字幕检索的性能有了很大的提高。
其次，我们证明了使用训练的对齐模型的检索增强多模态变压器在强基线上改进了VQA结果。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。