论文笔记:African or European Swallow? Benchmarking Large Vision-Language Models for Fine-Grained Object

1. Motivation

尽管大型视觉-语言模型(LVLMs)在图像理解和推理任务上(例如,物体的存在和计数、定位、物体之间的比较,以及识别物体的属性)表现出色,但在细粒度物体分类(例如区分不同动物种类)方面(fine-grained object classification)的能力尚未得到充分测试,尽管这对于下游任务非常重要。并且 现有的评估基准主要测试LVLMs的图像理解和推理能力,而很少考虑细粒度物体分类这一独立技能。

2. Contribution

  1. 指出目前对LVLM的评估中,对 细粒度物体分类 的探究的不足,尽管(细粒度)对象分类任务很重要。
  2. 作者解决了如下问题: (i) 对于具有上下文学习能力(in-context learning)的模型在few-shot object classification 任务上进行评估时,模型不是单独对图像进行分类,而是将目标图像与标记的上下文示例进行比较 (2)Pali 虽然在 ImageNet 数据集上测评LVLM,但是是通过对每个类标签进行评分来进行评估,这在计算上是昂贵的。(3)LVLM-e-Hub 也评估了 一些图像分类数据集(如 ImageNet),但他们将其制定为开放式 QA 任务,预期答案含糊不清,这导致所有模型的准确度分数较低。(4)在知识密集型 VQA 中,模型必须识别正确的对象(例如特定建筑物)才能正确回答;当使用知识库检索相关信息时,对象可以隐式识别(QA 模型需要知道哪个对象才能正确回答)或显式识别
  3. 基于此,作者创建了一个名为FOCI(Fine-grained Object Classification)的multi-choice基准,用于评估细粒度物体分类任务。
  4. 该方法,我们在零样本配置中使用 CLIP 从类标签池中挖掘困难的选择。作者从不同领域(花卉、汽车、食品、飞机、宠物)的 5 个流行分类数据集组装了 FOCI,并另外从 ImageNet-21k中为动物、植物、食品
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值