Image Caption是一个融合计算机视觉、自然语言处理和机器学习的综合问题,它类似于翻译一副图片为一段描述文字。该任务对于人类来说非常容易,但是对于机器却非常具有挑战性,它不仅需要利用模型去理解图片的内容并且还需要用自然语言去表达它们之间的关系。除此之外,模型还需要能够抓住图像的语义信息,并且生成人类可读的句子。
简单理解为:为图片生成描述语言,输入为一张图片,输出为客观描述图片的句子。
研究难点与挑战:
(1)多模态理解与推理,包括:图片(捕捉真实世界的原始刻画);自然语言(代表更高一级的抽象)
(2)复合理解与推理,包括:多个元素(物体、动作、场景、事件等);多步、迭代过程
论文:Show and Tell: Lessons learned from the 2015 MSCOCO Image Captioning Challenge.
全文: http://arxiv.org/abs/1609.06647
效果举例:
原图:
描述生成结果:
0) a group of young men standing next to each other . (p=0.002236)
1) a group of people standing next to each other . (p=0.001442)
2) a group of young men standing next to each other on a field . (p=0.000307)