Tensorflow实现：做自己的图像描述（附源码和数据）

最新推荐文章于 2024-08-31 18:37:54 发布

原创

最新推荐文章于 2024-08-31 18:37:54 发布 · 3.2k 阅读

·

5

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#Image caption #图像生成文本 #图像标题生成

Image Caption是一个融合计算机视觉、自然语言处理和机器学习的综合问题，它类似于翻译一副图片为一段描述文字。该任务对于人类来说非常容易，但是对于机器却非常具有挑战性，它不仅需要利用模型去理解图片的内容并且还需要用自然语言去表达它们之间的关系。除此之外，模型还需要能够抓住图像的语义信息，并且生成人类可读的句子。
简单理解为：为图片生成描述语言，输入为一张图片，输出为客观描述图片的句子。
研究难点与挑战：
（1）多模态理解与推理，包括：图片（捕捉真实世界的原始刻画）；自然语言（代表更高一级的抽象）
（2）复合理解与推理，包括：多个元素（物体、动作、场景、事件等）；多步、迭代过程
论文：Show and Tell: Lessons learned from the 2015 MSCOCO Image Captioning Challenge.
全文: http://arxiv.org/abs/1609.06647
效果举例：

原图：

描述生成结果：

0) a group of young men standing next to each other . (p=0.002236)
1) a group of people standing next to each other . (p=0.001442)

2) a group of young men standing next to each other on a field . (p=0.000307)

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。