多视图深度学习中的视图映射方法解析
1. 多视图深度学习概述
在多视图深度学习里,视觉模型和组合语言模型可联合更新。通过这种方式,模型能在嵌入模型中实现自下而上和自上而下的路径,进而处理视频到文本以及文本到视频的任务。
2. 视图映射的基本概念
视图映射主要聚焦于探索视图之间的相互生成方法,与探索约束空间不同,它着重于探寻视图间相对直接的映射关系。在数学上,视图映射可表示为:
$f (x1) \stackrel{K}{\rightleftharpoons} g(x2)$
其中,$K$ 可以是端到端的神经网络,也可以是字典。这类方法旨在寻找 $K$ 来构建视图之间的直接联系。
3. 生成模型
3.1 深度条件生成对抗网络
近年来,生成对抗网络在机器学习领域备受关注。以往,早期的多视图映射方法多依赖基于字典的生成方式,不过随着能生成图像和序列的深度学习模型的出现,这种情况正在改变。
生成对抗网络(GANs)由生成器 $G$ 和判别器 $D$ 构成,它们在一个二人极小极大博弈中相互竞争。判别器试图区分真实训练数据和合成图像,而生成器则试图欺骗判别器。为了学习数据 $x$ 上的生成器分布 $p_g$,生成器构建了一个从先验噪声分布 $p_z(z)$ 到数据空间的映射函数 $G(z; θ_g)$。判别器 $D(x; θ_d)$ 输出一个标量,表示 $x$ 来自训练数据而非 $p_g$ 的概率。具体而言,$D$ 和 $G$ 在 $V (D, G)$ 上进行如下博弈:
$\min_{G} \max_{D} V (D, G) = E_{x\sim p_{data}(x)}[\
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



