【文献阅读】VQA(1)——Learning Transferable Visual Models From Natural Language Supervision
摘要部分主要说了现在SOTA的经过训练的视觉系统已经可以预测固定的预定对象的类别。这句话其实很好解释:现在做图像分类的时候,你需要提前定义一个大的分类label标签。我做猫狗分类,那么我预测的就是猫or狗;如果做人狗猪马分类,就是做四分类(多分类)任务。如果是这样,那么在二分类上做训练,就不好去迁移到别的任务里面去预测,因为别的任务预测的最后label可能是不同的。就算你训练了一个超级大的视觉模型,来预测十万类别,但是你迁移到别的任务里去,还是有可能别人的任务里没有对应的label。
原创
2023-09-05 10:33:07 ·
256 阅读 ·
0 评论