图像生成模型

目录

1. GAN

目标:

数学目标:

推导过程:

目标函数:

2. VAE

目标:

数学目标:

 推导过程:

目标函数:

Diffusion

目标:

数学目标:

 推导过程:

目标函数:


\max f(x | \theta) = \prod_{i=1}^{n} p(x_i) \\\\ \max \log f(x | \theta) = \log \prod_{i=1}^{n} p(x_i) \\\\ \max \log f(x | \theta) = \sum_{i=1}^{n} \log(p(x_i))

1. GAN

目标:

训练一个生成器去拟合真实样本P_{data}的分布 ,然后通过生成器从这个分布中进行采样。

数学目标:

为最小化样本和生成器分布的KL散度:

\theta^* = \mathop{\arg\max}\limits_{\theta} L(x;\theta) \cong \mathop{\arg\min} \limits_{\theta} \text{KL}(P_{\text{data}} \parallel P_G)

推导过程:

目标函数:

V(G, D) = E_{x \sim P_{data}}[\log D(x)] + E_{x \sim P_{G}}[\log(1 - D(x))]

当判别器太强或样本分布太复杂,生成器会偷懒产生模式坍塌。 

2. VAE

目标:

训练一个生成器去拟合真实样本P_{data}的分布 ,然后通过生成器从这个分布中进行采样;

添加了一个约束假设,既p(z|x)服从N(0,1)分布。

数学目标:

为最大化证据下界。

\theta^* = \mathop{\arg\max}\limits_{\theta} L(x;\theta) \geqslant \mathop{\arg\max}\limits_{\theta} \int_{z} q(z|x) \log \left( \frac{P(x|z)P(z)}{q(z|x)} \right) dz = \mathop{\arg\max}\limits_{\theta}\left[ E_{z \sim q(z|x)} \log p(x|z) - KL(q(z|x) || p(z)) \right]

 推导过程:

目标函数:

\min \left[ \frac{1}{n} \sum_{i=1}^{n} \left| x^i - f(z^i) \right|^2 + \frac{1}{2} \sum_{j=1}^{M} \left( \sigma_j^2 + \mu_j^2 - \log \sigma_j^2 - 1 \right) \right]

 

Diffusion

目标:

训练一个生成器去拟合真实样本P_{data}的分布 ;从t时刻的扩散噪声中一步步恢复出真实数据分布,模型预测t时刻的噪声,用来采样t-1时刻的图像。

假设:前向扩散过程噪声服从N~(0,1)分布。

推导:逆向过程服从高斯分布,均值和方差跟,x0,xt和扩散参数有关。

数学目标:

VAE: \log P_\theta(x) \rightarrow \max \frac{P(x, z)}{q(z | x)}

Diffusion:P_\theta(x_0) \rightarrow \max \frac{P(x_0: x_T)}{q(x_1: x_T | x_0)}

 推导过程:

简化:

第二项无参数,只优化第一项和第三项即可,第一项可看作第三项T=1的情况。

目标函数:

根据 t 时刻的图像预测其t时刻的噪声,使得 p_{\theta}(x_{t-1}|x_t)的分布与真实的分布相近。

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

blanklog

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值