视频字幕生成与智能推荐系统技术解析
1. 视频字幕生成模型训练
1.1 模型训练整体流程
在视频字幕生成模型的训练中,首先要将训练集和测试集中的视频字幕合并,创建单词词汇字典。接着调用 build_model 函数,结合两个 LSTM 构建视频字幕网络。对于每个有特定起止时间的视频,会有多个输出字幕,在每个批次中,会从多个可用字幕里随机选择一个作为该视频的输出字幕。
1.2 输入输出调整
输入到 LSTM 2 的文本字幕,会将时间步 (N + 1) 的起始词调整为 <bos> ,输出文本字幕的结尾词调整为 <eos> 。每个时间步的分类交叉熵损失之和,作为特定视频的总交叉熵损失。
1.3 训练代码实现
def train(self):
data = self.get_data(self.train_text_path,self.train_feat_path)
self.train_data,self.test_data = self.train_test_split(data,test_frac=0.2)
self.train_data.to_csv(f'{self.path_prj}/train.csv',index=False)
self.test_data.to_csv(f'{self.path_prj}/test.csv',index=False)
print(f'Processed t
超级会员免费看
订阅专栏 解锁全文
1290

被折叠的 条评论
为什么被折叠?



