第四部分 人脸识别和神经风格转换 - 3 笔记

本文介绍内容与风格迁移技术,详细解释内容代价函数和风格代价函数的定义与计算方法,并探讨了1D、2D和3D卷积在网络中的应用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

4.9 内容代价函数
Content cost function

定义代价函数里内容代价部分。


假设用隐藏层l来计算内容代价,层数l越靠前,利用内容代价生成的图像越接近内容图片C。实际应用中,层数l既不会台浅也不会太深。假设选择l层来计算内容代价,令a[l][C]和a[l][G]代表图片C和G在l层的激活值,定义内容代价函数为:

代价函数的定义即为,内容图片和生成图片在l层的激活,按元素相减取二范数,前面的1/2可有可无,因为可以用超参α来调节。

4.10 风格代价函数
Style cost function

利用隐藏层l来计算图像的风格(style),定义风格为l层中各个通道激活值之间的相关系数。
假设a[l][i,j,k]为隐藏层l中第i,j,k位置的激活值,其中i,j,k分别代表高度、宽度和波段数。由于定义风格函数由相关系数计算而来,那么风格矩阵G[l][S]的维度应为nc×nc,其中l代表隐藏层l、S代表风格图像。风格矩阵G[l][S]中k和k'的元素值为:

该元素值描述了波段k和k'的相关系数。同理,生成图像的风格矩阵元素值为:

这是一种非标准的互协方差,因为并没有减去均值而只是把这些元素直接相乘,这就是计算图像风格的方法。另外,先线代中,风格矩阵又称为Gram矩阵。
在定义了风格矩阵之后,类似内容代价,风格代价可以描述为:

同样的公式里的系数可以用β来调节。手写公式部分的含义是将每个隐藏层对应的风格矩阵向加来表示风格代价。
小结,风格转换的整体代价函数:


4.11 1维到3维卷积推广
1D and 3D generalizations of models

2D卷积
输入图像维度:14x14x3,卷积核尺寸5x5x3 卷积核个数16,经卷积后输出维度为10x10x16,再次经过5x5x16卷积,卷积核个数为32,输出为6x6x32.
1D卷积
输入为EKG信号或者心电图,维度为14x1,卷积核尺寸为5x1,卷积核个数为16,卷积后输出维度为10x16,再经过5x16的卷积,卷积核个数为32,则输出为6x32。
3D卷积

输入数据可以是CT扫描影像不同切片的合集,每个切片对应不同扫描部位的影像,数据的维度可以描述为 高x宽x切片个数。除了在每个切片影像上进行2D卷积,在切片个数这个维度上也可以进行卷积,这就用到了3D卷积。
假设输入数据维度为14x14x14,假设输入仅有个通道那么维度也可写作14x14x14 x 1,相应的卷积核维度为5x5x5x1,卷积核个数为16,输出为10x10x10 x16,再经过5x5x5的卷积,卷积核个数为32,则输出维度为6x6x6x32。
某种程度上3D数据也可以使用3D卷积网络学习,这些卷积核实现的功能正是通过3D数据进行特征检测。CT医疗扫描是3D数据的一个实例,另一个数据处理的例子是可以将电影中随时间变化的不同视频切片看作是3D数据,可以将这个技术用于检测动作及人物行为。

(第四部分课堂笔记部分完结,待更新课后作业及编程部分......)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值