教程｜从头开始在Python中开发深度学习字幕生成模型，强！

最新推荐文章于 2024-07-09 16:32:09 发布

原创

最新推荐文章于 2024-07-09 16:32:09 发布 · 741 阅读

3 ·

CC 4.0 BY-SA版权

文章标签：

#python #深度学习 #自然语言处理

本文详细介绍了如何使用Python、Keras和TensorFlow从头开始开发深度学习字幕生成模型。从数据预处理、模型开发到模型评估，包括图像和文本数据的准备、VGG模型的特征提取、LSTM模型的构建，以及在Flickr8K数据集上的应用。通过本教程，读者将学会图像和文本数据的处理、深度学习模型的构建与训练，并能为新图像生成字幕。

本文从数据预处理开始详细地描述了如何使用 VGG 和循环神经网络构建图像描述系统，对读者使用 Keras 和 TensorFlow 理解与实现自动图像描述很有帮助。本文的代码都有解释，非常适合图像描述任务的入门读者详细了解这一过程。

图像描述是一个有挑战性的人工智能问题，涉及为给定图像生成文本描述。字幕生成是一个有挑战性的人工智能问题，涉及为给定图像生成文本描述。

一般图像描述或字幕生成需要使用计算机视觉方法来了解图像内容，也需要自然语言处理模型将对图像的理解转换成正确顺序的文字。近期，深度学习方法在该问题的多个示例上获得了顶尖结果。最后，如果你的时间不是很紧张，并且又想快速的提高，最重要的是不怕吃苦，建议你可以联系维：762459510 ，那个真的很不错，很多人进步都很快，需要你不怕吃苦哦！大家可以去添加上看一下~

深度学习方法在字幕生成问题上展现了顶尖的结果。这些方法最令人印象深刻的地方：给定一个图像，我们无需复杂的数据准备和特殊设计的流程，就可以使用端到端的方式预测字幕。

本教程将介绍如何从头开发能生成图像字幕的深度学习模型。

完成本教程，你将学会：

如何为训练深度学习模型准备图像和文本数据。
如何设计和训练深度学习字幕生成模型。
如何评估一个训练后的字幕生成模型，并使用它为全新的图像生成字幕。

教程概览

该教程共分为 6 部分：

1. 图像和字幕数据集

2. 准备图像数据

3. 准备文本数据

4. 开发深度学习模型

5. 评估模型

6. 生成新的图像字幕

Python 环境

本教程假设你已经安装了 Python SciPy 环境，该环境完美适合 Python 3。你必须安装 Keras（2.0 版本或更高），TensorFlow 或 Theano 后端。本教程还假设你已经安装了 scikit-learn、Pandas、NumPy 和 Matplotlib 等科学计算与绘图软件库。最后，如果你的时间不是很紧张，并且又想快速的提高，最重要的是不怕吃苦，建议你可以联系维：762459510 ，那个真的很不错，很多人进步都很快，需要你不怕吃苦哦！大家可以去添加上看一下~

我推荐在 GPU 系统上运行代码。你可以在 Amazon Web Services 上用廉价的方式获取 GPU：如何在 AWS GPU 上运行 Jupyter noterbook？

图像和字幕数据集

图像字幕生成可使用的优秀数据集有 Flickr8K 数据集。原因在于它逼真且相对较小，即使你的工作站使用的是 CPU 也可以下载它，并用于构建模型。

对该数据集的明确描述见 2013 年的论文《Framing Image Deion as a Ranking Task: Data, Models and Evaluation Metrics》。

作者对该数据集的描述如下：

我们介绍了一种用于基于句子的图像描述和搜索的新型基准集合，包括 8000 张图像，每个图像有五个不同的字幕描述对突出实体和事件提供清晰描述。图像选自六个不同的 Flickr 组，往往不包含名人或有名的地点，而是手动选择多种场景和情形。

该数据集可免费获取。你必须填写一份申请表，然后就可以通过电子邮箱收到数据集。申请表链接：https://illinois.edu/fb/sec/1713398。

很快，你会收到电子邮件，包含以下两个文件的链接：

Flickr8k_Dataset.zip（1 Gigabyte）包含所有图像。
Flickr8k_text.zip（2.2 Megabytes）包含所有图像文本描述。

下载数据集，并在当前工作文件夹里进行解压缩。你将得到两个目录：

Flicker8k_Dataset：包含 8092 张 JPEG 格式图像。
Flickr8k_text：包含大量不同来源的图像描述文件。

该数据集包含一个预制训练数据集（6000 张图像）、开发数据集（1000 张图像）和测试数据集（1000 张图像）。

用于评估模型技能的一个指标是 BLEU 值。对于推断，下面是一些精巧的模型在测试数据集上进行评估时获得的大概 BLEU 值（来源：2017 年论文《Where to put the Image in an Image Caption Generator》）：

BLEU-1: 0.401 to 0.578.
BLEU-2: 0.176 to 0.390.
BLEU-3: 0.099 to 0.260.
BLEU-4: 0.059 to 0.170.

稍后在评估模型部分将详细介绍 BLEU 值。下面，我们来看一下如何加载图像。

准备图像数据

我们将使用预训练模型解析图像内容，且目前有很多可选模型。在这种情况下，我们将使用 Oxford Visual Geometry Group 或 VGG（该模型赢得了 2014 年 ImageNet 竞赛冠军）。

Keras 可直接提供该预训练模型。注意，第一次使用该模型时，Keras 将从互联网上下载模型权重，大概 500Megabytes。这可能需要一段时间（时间长度取决于你的网络连接）。最后，如果你的时间不是很紧张，并且又想快速的提高，最重要的是不怕吃苦，建议你可以联系维：762459510 ，那个真的很不错，很多人进步都很快，需要你不怕吃苦哦！大家可以去添加上看一下~

我们可以将该模型作为更大的图像字幕生成模型的一部分。问题在于模型太大，每次我们想测试新语言模型配置（下行）时在该网络中运行每张图像非常冗余。

我们可以使用预训练模型对「图像特征」进行预计算，并保存至文件中。然后加载这些特征，将其馈送