目前很多评测工作探究视觉语言大模型在不同维度上的能力,但都忽视了真实世界中非常重要的一点:未来作为智能体或机器人的大脑,多模态模型应当具备从第一人称视角理解世界的能力。针对以上问题,清华大学提出了第一人称视角的视觉问答基准数据集——EgoThink,相关论文被人工智能顶级国际会议CVPR 2024录用。EgoThink数据集定义了在真实世界中从第一人称思考时所需的六种核心能力,并评估了十八个主流的视觉语言大模型的表现。评测结果显示,目前阶段的视觉语言大模型从第一人称视角进行思考的能力仍有显著欠缺,即使是GPT-4V模型在所有任务上的平均分也仅为65.5(满分100)。
论文标题:
Can Vision-Language Models Think from a First-Person Perspective?
论文链接:
https://arxiv.org/abs/2311.15596
项目主页:
代码链接: