基于ViT finetune车辆重识别demo展示
Vehicle Reid(车辆重识别)
前言
随着transformer在多模态上强有力的对齐能力,以前都很难想象5B组图像-文本pair预训练的参数有多强。
现在告诉你,把vit大模型的参数迁移到纯视觉的下游任务,基本上都是指标猛增。
veri-776 mAP随随便便上85,以前那么多前辈辛辛苦苦设计的network不如大量数据来的直接。backbone强大才是真强大,装上v12发动机, 奥拓变法拉利。
任务目的: 使用一张车的照片,在视频or图像中找到这辆出现的时刻。

问题拆分:
For image: 车辆检测-> vehicle reid -> vector search -> matching.
F

本文介绍了如何利用预训练的VIT模型在车辆重识别任务中取得显著性能提升,通过TextualInversion技术将文本描述与视觉模态对齐,展示了在VehicleID和VeRi-776数据集上的优秀表现。作者还讨论了模型选择和项目实践中的注意事项。
最低0.47元/天 解锁文章
2416

被折叠的 条评论
为什么被折叠?



