图文检索（40）：局部对齐ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision

最新推荐文章于 2025-05-17 17:08:31 发布

简简单单的貔貅

最新推荐文章于 2025-05-17 17:08:31 发布

阅读量309

点赞数 4

分类专栏：图文检索文章标签： transformer 深度学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/zhuzaiyebol/article/details/144987081

版权

ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision

摘要
3 Vision-and-Language Transformer
结论

发布时间（ICML 2021）

标题：无需卷积或区域监督的视觉和语言转换器

摘要

这是一个转折点：CLIP（2021年初）之前的图像特征提取依赖 object detection + resnet 这样两层结构

3 Vision-and-Language

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。