Tensorflow实现:做自己的图像描述(附源码和数据)

Image Caption是一个融合计算机视觉、自然语言处理和机器学习的综合问题,它类似于翻译一副图片为一段描述文字。该任务对于人类来说非常容易,但是对于机器却非常具有挑战性,它不仅需要利用模型去理解图片的内容并且还需要用自然语言去表达它们之间的关系。除此之外,模型还需要能够抓住图像的语义信息,并且生成人类可读的句子。
简单理解为:为图片生成描述语言,输入为一张图片,输出为客观描述图片的句子。
研究难点与挑战: 
(1)多模态理解与推理,包括:图片(捕捉真实世界的原始刻画);自然语言(代表更高一级的抽象) 
(2)复合理解与推理,包括:多个元素(物体、动作、场景、事件等);多步、迭代过程
论文:Show and Tell: Lessons learned from the 2015 MSCOCO Image Captioning Challenge. 
全文: http://arxiv.org/abs/1609.06647
效果举例:

原图:

描述生成结果:

  0) a group of young men standing next to each other . (p=0.002236)
  1) a group of people standing next to each other . (p=0.001442)

  2) a group of young men standing next to each other on a field . (p=0.000307)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值