Image Captioning aims to automatically generate a natural language description of an image. (Image captioning with semantic attention, CVPR, 2016.)
Reference
https://blog.youkuaiyun.com/JohnChen45/article/details/81748651
Visual Question Answering takes as input an image and a free-form, open-ended, natural-language question about the image and produces a natural-language answer as the output. (VQA: Visual Question Answering, ICCV, 2015.)
Visual Grounding expects to find out the target object of the query in the image (understand the natural language query). (Visual Grounding via Accumulated Attention, CVPR, 2018)
Image Captioning:图像描述,给定输入图片后,模型自动生成一段描述性文字。
VQA:将图片和问题作为输入,结合这两部分信息,产生一条人类语言作为输出。
VG:给定图片和描述性语句,从图中找出最相关的物体或区域。
注:
VQA与Image Caption的区别:两个任务同时涉及到CV和NLP两个领域,但是与VQA不同的是,Image Captioning只需要产生对图片的一般性描述,而VQA需要根据问题的不同,仅关注图片中与该问题相关的某一部分,除此之外,某些问题还需要一定的常识推理才能做出回答。例如问题“你能在这停车吗”,计算机需要读懂这张图片而且还要有那些地方可以停车,哪些地方不可以。而对于Image Captioning,则只需要产生一条类似“花园的左边有一辆车,后边有一个消防栓”的描述即可。因此,VQA相比Image Captioning在图像语义的理解方面有更高的要求,因此也具有更大的技术挑战。