图像字幕生成项目实战
1. 项目概述
在图像字幕生成网络模型的创建中,合适的训练和测试数据至关重要。有多个公开数据集可供选择:
| 数据集名称 | 图像数量 |
| ---- | ---- |
| Flickr8k | 约8000张 |
| Flickr30k | 约30000张 |
| MS COCO | 约180000张 |
对于学习目的而言,Flickr8k数据集已足够,该数据集中每张图像配有5条相关字幕。
2. 创建项目
首先,打开一个新的Colab项目并将其重命名为ImageCaptioning,然后导入所需的库:
import os
import time
import pickle
import numpy as np
import tensorflow as tf
import matplotlib.pyplot as plt
from sklearn.utils import shuffle
from sklearn.model_selection import train_test_split
from tensorflow.keras.applications import InceptionV3
from os import listdir
from tqdm import tqdm
from PIL import Image
3. 下载数据
此项目需要下载两种数据库:图像及其对应的字幕。
- 下载字幕数据
超级会员免费看
订阅专栏 解锁全文
7095

被折叠的 条评论
为什么被折叠?



