论文不记之《StyleNet: Generating Attractive Visual Captions with Styles》

本文提出StyleNet框架,一种生成不同风格图像字幕的方法。该框架无需监督配对数据,通过多任务学习从文本库中提取风格因子。实验结果显示,StyleNet能显著提升图像字幕的吸引力。

一、本文目标

提出了一个名为StyleNet的新框架,以解决为图像和视频提供具有不同风格的图片字幕的任务。

二、本文贡献

本文是第一个研究用样式来生成有吸引力的图片字幕的问题,而不需要使用受监督的特殊图像-标题配对数据。

本文提出了一个端到端可学习的StyleNet框架,它可以自动从文本库中提取出样式因子。在标题生成中,样式因子可以被显式地合并以产生有吸引力的标题和所需的样式。

本文收集了一个新的Flickr图片字幕数据集。希望这个数据集可以帮助推进图像字幕的研究。

本文展示的StyleNet框架和Flickr的图片标题数据集也可以用来制作有吸引力的视频字幕。

三、StyleNet框架

第一层输入图片和真实的图片字幕进行学习

第二层和第三层输入浪漫风格和幽默风格的文本集

这三层都有一个factored LSTM结构用于学习,其中的参数是共享的除了特定的风格因子矩阵:SF, SR, SH

通过多任务学习

四、Factored LSTM

4.1 LSTM

LSTM是一种特殊的RNN,用于解决梯度消失和爆炸问题。LSTM的核心是记忆单元,它编码了每次输入的知识中被看到的部分,其中的门决定什么时候传递多少信息。特别地,有三个门:输入门it用来控制当前的输入xt,忘记门ft忘记以前的记忆ct-1,输出门ot是用来控制有多少内存被转移到隐藏状态ht。它们一起使LSTM能够在顺序数据中建立长期依赖关系。在LSTM块中,时间t中的门和单元更新规则如右图所示:

变量xt是时间t的输入序列的元素,而W表示要学习的LSTM参数。具体地说,Wix、Wfx、Wox和Wcx是应用于输入变量xt的权重矩阵,Wih、Wfh、Woh和Wch是用于重复更新隐藏状态值的权重矩阵。


4.2 Factored LSTM

因式分解传统LSTM中的参数Wx为三个矩阵Ux, Sx, Vx。

本文保留了重复的权重矩阵,包括Wih、Wfh、Woh和Wch,它们主要捕获语言的长时间的语法依赖,没有改变。

因此,因式分解后的LSTM中的记忆单元和门定义如下:

在分解的LSTM模型中,矩阵集{U}、{V}和{W}在不同的风格中共享,这些参数用于在所有文本数据中对一般的事实描述进行建模。然而,矩阵集{S}是特定于风格的。即框架中的SF, SR, SH


五、训练StyleNet

factored LSTM模型有两种类型的任务需要优化。在第一个任务中,LSTM根据成对的图像生成事实说明。在第二个任务中,被分解的LSTM被训练为语言模型。

除了特定风格的因素矩阵之外,这两个任务的factored LSTMs的参数都是共享的。

不同任务之间的损失函数是在每t步时单词xt的负对数概率

运行时,使用特定风格的矩阵S加上其他共享的参数集以组成factored LSTM,然后提取并转换输入图像的特征向量,并将其输入到基于factored LSTM的解码器中,以生成所需样式的字幕。

六、实验评估

为了评估由StyleNet生成的说明,本文使用了4个通常用于图像字幕的指标,包括BLEU、METEOR、ROUGE和CIDEr。

人类评估也显示StyleNet的结果吸引人。

对于每张照片,本文呈现了由NIC、CaptionBot和StyleNet创作的四段文字说明,并随机向评委们展示了一种幽默风格,并要求他们选择在社交媒体上分享图片的情景下最具吸引力的文字说明。

几乎85%的人认为StyleNet的结果更具吸引力。

本文还在视频字幕生成上做了实验。超过80%的人认为StyleNet生成的字幕较好




七、结果展示

八、总结

本文的目标是生成具有不同风格的具有吸引力的图片字幕。为此,本文开发了一个名为StyleNet的端到端可训练框架。通过使用特殊的LSTM模块和多任务学习,StyleNet能够从文本语料库中学习风格。

在运行时,可以通过factored LSTM模块将风格合并到图片说明的生成过程中。

本文的定量和定性结果表明,所提的StyleNet确实能够生成具有不同风格的相关图片说明。


音乐转换器是一种能够生成具有长期结构的音乐的技术。传统上,音乐生成模型主要依赖于自回归模型,即根据前面的音符预测下一个音符。这种方法很难捕捉到音乐的长期结构,因为它只关注于当前音符与前面音符的关系。 然而,音乐转换器采用了一种全新的方法。它将音乐的生成问题转化为基于自注意力机制的序列到序列问题。自注意力机制允许模型在生成每个音符时考虑到整个音乐序列的信息,而仅仅是前面的音符。 此外,音乐转换器还引入了一种基于位置编码和层归一化的技术,来增强模型对音乐序列的表征能力和泛化能力。位置编码在序列中为每个位置分配一个向量,以提供位置信息。而层归一化则可以确保模型的每一层都保持相似的输出分布,从而提高模型的训练稳定性和生成效果。 通过这些创新技术的运用,音乐转换器能够更好地捕捉到音乐的长期结构。它可以生成具有旋律、和声和节奏等多个音乐要素的音乐片段,并且这些片段之间能够形成完整的结构,如引言、主题、发展和回旋等。 总之,音乐转换器是一种利用自注意力机制、位置编码和层归一化等技术生成具有长期结构的音乐的方法。它的创新之处在于能够全局考虑音乐序列的信息,并能够生成具有完整结构的音乐片段。这使得音乐转换器成为一个有潜力的工具,在音乐创作和生成领域有着广阔的应用前景。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值