【Image Captioning】Improve Image Captioning by Estimating the Gazing Patterns from the Caption
CNN等神经网络模型中提取的图像特征中产生类人描述方面达到了良好的性能。然而,之前没有一种明确的方法能够反映人类对图像的感知,比如凝视模式。在本文中,作者假设在image caption中的名词(即实体)及其顺序反映了人类的凝视模式和感知。为此,作者从caption中的单词中预测注视序列gaze sequence,然后训练一个指针网络pointer network来学习在新图像中给定一组object后自动生成gaze sequence。
原创
2022-11-16 14:51:25 ·
377 阅读 ·
0 评论