图像字幕生成的性能分析
1. 相关技术基础
在图像字幕生成领域,有几个关键的技术基础。首先是向量空间的运用,其向量空间较小。接着是 word2vec 层,它是 2013 年由 Tomas Mikolov 等人开发的用于将文本语料库进行词嵌入的统计模型,效果显著。还有 Global Vector (GloVe) 层,用于词表示,其基于深度学习来学习数据的表示,而深度学习是机器学习的一部分。
Bilingual Evaluation Understudy (BLEU) 算法用于评估文本质量。根据 BLEU 得分可以计算准确性,其得分范围在 0 到 1 之间。NLTK 提供了 BLEU 得分的实现。在数据集里,存在实际字幕,经过图像字幕模型后会生成预测字幕,通过比较这两种字幕来生成 BLEU 得分,比较时会逐词进行。NLTK 库中的 sentence BLEU
函数可用于评估问题句子与一个或多个参考标记列表。
目标主要有以下几点:
1. 使用神经网络开发用于图像目标分类的模型。
2. 使用神经网络关联图像特征和文本描述。
3. 使用训练好的模型生成图像字幕。
4. 通过用户反馈测试和验证测试评估性能。
2. 文献综述
图像字幕生成在当今具有重要意义,有诸多应用,如图像搜索、帮助盲人等。近年来,不同科学家开发了许多字幕生成技术并取得了较好成果。例如:
- 2014 年 He 等人提出了一种架构。
- 2015 年微软 AI 实验室从管道视角进行图像字幕生成,使用 CNN 模型进行特征提取,使用 Multiple Instance Learning (MIL