Reversed-Z详解

  在3D渲染管线中,Z这个家伙几乎无处不在,如Z-Buffer,Early-Z,Z-Cull,Z-Test,Z-Write等等,稍有接触图形学的人都会对这些术语有所耳闻。

  那么Z到底是什么呢?首先Z当然可以是任意坐标系下的z坐标值,但我们这里要说的Z值,就是深度值,上面几个包含Z的术语里面的Z也都是深度值的意思,深度值是物体变换到屏幕空间后的z坐标的值,因为NDC空间转屏幕空间时并不会改变z值,所以也可以说是NDC空间中z坐标的值,有些读者可能认为在屏幕空间中Z值已经不存在了,这也是有道理的,因为屏幕是一个2d空间,没有z轴,但我们在这里不做2d,3d区别,认为都有z轴。在DirectX中,Z值得取值范围是[0,1],在OpenGL中,其取值范围为[-1,1],这篇拟在DirectX环境下讨论Z。

  Z值的推导请参见:

http://www.codeguru.com/cpp/misc/misc/graphics/article.php/c10123/Deriving-Projection-Matrices.htm

  这里我们直接用上文中的一个结果(建议没推导过的读者按照这一篇的思路推导一遍,必定会受益匪浅), 即Z值在透视投影后的结果:

$$ZZ_{c}={\frac{f}{f-n}Z_{c}}-{\frac{fn}{f-n}}$$

  上面的方程中,$Z$即我们要求的深度值,$Z_{c}$是物体在Eye Space中的z坐标,f是视锥体远裁剪平面在Eye Space中的z坐标,n是视锥体近裁剪平面在Eye Space中的z坐标。由上式可求得($ZZ_{c}$其实是Clip Space中的z值,除以$Z_{c}$就是透视除法,得到NDC空间的z值,也即是深度值Z):

 $$Z={\frac{f}{f-n}}-{\frac{fn}{(f-n)*Z_{c}}}\quad ①$$

  对于$Z_{c}$,我们可以证明其关于物体在World Space中的z值$Z_{w}$为线性关系,那么根据上式可知$Z$与$Z_{c}$、$Z_{w}$皆不为线性关系。简单起见,我们取f=1000,n=0.01,有:

 $$Z≈-{\frac{0.01}{Z_{c}}}+1\quad②$$

其函数图像如下($Z_{c}>0$):

图1

 

  图中A点表明了$Z_{c}$∈[0.01,0.1]的物体占用了十分之九(0~0.9)的深度值,这说明在z轴方向上与相机距离为0.1到1000的物体只用到了十分之一(0.9~1.0)的深度值。这个结果是令人印象深刻的,因为Z值的分布太不均匀了,就好像世界上的绝大部分钱都被一个人占有了一样。那Z值的分布情况对于3d渲染来说重要吗?它意味着什么呢?

  深度值的不均分分配会导致非常严重的后果,那就是Z-Fighting。深度值的取值范围是[0,1],但这并不代表它存到Z-Buffer里面后也一定是[0,1]的浮点数,事实上在过去很长一段时间乃至现在很多时候,深度值被保存在16位或者24位的无符号整数中。这里我们用范围更小的16位来存储深度值,因为这能更好的凸显出问题。当深度值存储为16位无符号整型格式时,其取值范围是[0,65535],现在我们来算一算当深度值为65534时,$Z_{c}$是多少?65534映射到[0,1]中,值为65534/65535。连同f=1000,n=0.01代入①式(①比②可获得更精确的结果)可解得:$Z_{c}$≈395.9005401718437≈395.9,这说明在Eye Space中在z轴方向上距离相机395.9到1000的物体的深度值都是65535!当两个物体拥有同样的深度值时,就会产生非常丑陋的Z-Fighting(详见:https://en.wikipedia.org/wiki/Z-fighting):

(相同的深度值导致GPU不能正确分辨哪个在前,哪个在后)。

    在3d渲染中,应该尽可能的避免产生Z-Fighting,即应该尽可能的改善深度值分布的均匀程度。提高用来保存深度值类型的精度可以起到改善z值冲突的情况,比如用24位甚至32位的数据类型来存储深度会比16位好很多,但由于硬件条件的限制和Z值的非线性增长,目前来说不可能用太多位的硬件出现。有的人也许会想到用浮点数来保存深度值,但其实这毫无作用的,甚至可以说更为浪费,因为对于32位浮点数,其尾数(Mantissa)只有23位二进制数,规格化浮点数加上一位保留位也只有24位,这与24位无符号整数表示的精度是一样的,而浮点数还多使用了8位来存储其他信息。另外,虽然浮点数本身表示的范围更广,但我们知道深度值的范围不过为[0,1],当我们用浮点数来存储深度值时,当然不会再去做映射,这样,深度值其实只占到了范围在[0,1]的浮点数所占的精度,这势必就更少了,不过好在浮点数的精度分布也主要分布在0值附近,0值附近的符点数拥有更好的精度,但不管怎样,目前来说想依靠浮点数来改善状况是不可取的。

  除了提高Z-Buffer的精度以外,还有一些方法也可以改善Z值冲突的情况,如增大近裁面与相机位置z值距离(即n值)就是一种方法。对①式 我们取n=0.1,f=1000(不变),有:

$$Z≈-\frac{0.1}{Z_{c}}+1$$

其图像如下:

图2

  对比图1,图2的情况好了很多,对比两个图中的点A,前0.9的深度值表示的范围从0.1扩大到了1,说明有更多的深度值用来表示$Z_{c}$比较大的情况,如果还以16位无符号整数来存储深度值,计算后可得$Z_{c}$在区间[868,1000]时共享65535这个深度值,这比[396,1000]的冲突少了非常多,降低了出现Z-Fighting的概率。而我们仅仅是将n从0.01提高到0.1而已,这对一般的应用场景几乎不会产生影响。

  既然如此,我们将n值继续增大,比如取n=100,会怎样呢?我们将n=100,f=1000(不变)代入1式得:

 $$Z=-\frac{1000}{9Z_{c}}+\frac{10}{9}$$

图像如下(我必须把x轴压缩400倍才能截个图):

图3

  可以看到0到0.9的深度值已经可以表示到大约=600的时候了,要知道n=0.01的时候, 0.9的深度值$Z_{c}$只能表示到0.1;n=0.1的时候$Z_{c}$只能表示到1。依然将深度值存入到无符号整型中,我们可以计算出当物体的$Z_{c}$∈[999.863,1000]时,它们才共用65535这个深度值,通过取n=100我们很好地改善了Z值的分布情况。至少看起来已经是个很好——甚至可以说近乎完美的办法了。但是,事实并非如此,由于取得n=100,我们舍弃了整个$Z_{c}$∈[0,100]的物体,我们将永远看不到那些离相机z轴距离少于100的物体!增大近裁剪面的值以换取深度值的分布均匀程度,难言利弊得失。

    难道就没有更好的改善深度值分布的办法了吗?当然有了,办法就是神奇的Reversed-Z,Reversed-Z的做法其实是很简单的,即将原本近裁剪平面映射到深度值0,远裁剪平面映射到深度值1的映射关系反过来,让近裁剪平面映射到深度值1,远裁剪平面映射到深度值0。即将[n,f]映射到[1,0],按照上文给出的投影矩阵推导链接中的方法,我们可以推导出Reversed-Z的情况下Z与$Z_{c}$的关系(其实就是①式中n与f互换):

  $$Z={\frac{n}{n-f}}-{\frac{fn}{(n-f)*Z_{c}}}$$

  我们取n=0.1,f=1000,有:

$$Z≈\frac{0.1}{Z_{c}}$$

函数图像如下:

图4

    看到上面的图,细心的读者可能会发现,这不跟图2一样嘛,都是$Z_{c}$=1的时候,深度值Z就用了十分之九(0.9)了,不过是前者是[0, 0.9],这里是[0.1, 1]而已,有区别吗?如果我们还是以无符号整型来存储深度值,的确对我们达成目的没有帮助,依然是靠近近裁剪平面的少数物体占据了大多数深度值。但是我说过Reversed-Z是神奇的,它的神奇之处是当它搭配上我前面否定过的浮点数时,Reversed-Z在"提高深度值均分分布程度" 这件事上就变得非常有效了。

    让我们回到浮点数,前面有提到过 "0值附近的符点数拥有更好的精度",这是有依据的,浮点数具体介绍请参考维基百科:https://en.wikipedia.org/wiki/IEEE_floating_point,这里以单精度符点类型做简单说明。规约化单精度浮点数的有效位数只有7位(实际是7点多位,这里简单起见取7),当一个浮点数小于1的时候,它可以确保有6位小数位是精确的,也就是说,在(0,1)这个开区间内至少可以包含999999(6位)个误差允许的单精度浮点数,1~9同理,但由于非规约化浮点数(主要是在0值左右)的存在,使得(0,1)这个区间内的浮点数个数要比(1,2),(2,3)…(9,10)这些区间内的符点数要多。在(10, 11)这个区间内,由于整数位占去了两位,所以这个区间内至少只可以包含99999(5位)个有效单精度浮点数,以此类推,(100,101)开区间内包含9999个有效单精度浮点数,(1000,1001)开区间内包含999个有效单精度浮点数等等,当数量级来到[1000000,1000001]时(注意这里是闭区间),这个区间内能保证有效的单精度浮点数不过就两个:1000000与1000001本身。这说明浮点数的分布与深度值的分布一样是不均与的,越靠近0的浮点数分布越密集,越远离0的浮点数分布越稀疏:

浮点数分布情况图

  当我们用正常的Z值系统([n,f]映射到[0,1])与浮点数配合时,符点数没有任何帮助(原谅这个不一样的画风,由于我还不太会使用GeogeBra作图,我把本文的主要参考文章Depth Precision Visualized的图拿过来用了):

图5

  图5中z1到z2这么远的距离依然只共享一个深度值0.99。

    

但当我们将Reversed-Z([n,f]映射到[1,0])与浮点数结合起来,情况就变成了:

图6

随着$Z_{c}$的增大,深度值Z的降幅越来越小,看似又要陷入精度不够的死胡同,但浮点数的分布规律恰好弥补了这一不足,使得较大的也有足够的精度表示,图6中z1到z2比之图5中多获得了5个深度值。这样,距离相机近和远的物体分得的深度值就比较平均了,变相的实现了"改善深度值分布状况"这一目的,从而也达到了降低Z-Fighting出现的概率(是的,虽然Reversed-Z这么神奇,但Z-Fighting还是不能完全避免的,虽然概率已经降到很低)。

作为依赖Unity引擎的开发者,很高兴看到Unity在其5.5以及以后的版本中引入了Reversed-Z的做法,在这里也提醒一下大家以后为Unity写shader的时候,如果用到深度值Z,一定要记得 [n,f] 是映射到[1,0],否则就会写出错误的效果J

 

参考与说明:

本文参考:Depth Precision Visualized,对Reversed-Z进行思考与分析,希望能对读者有所帮助。

文中的函数图像使用GeoGeBra软件绘制,公式用LaTex 语法写成。

转载于:https://www.cnblogs.com/jackmaxwell/p/6851728.html

在理解 Latent Diffusion Model (LDM) 的代码实现时,需要从模型的两个主要组成部分入手:**变分自编码器(VAE)** 和 **扩散模型(Diffusion Model)**。LDM 的核心思想是通过将数据(如图像)编码到一个低维潜在空间中,然后在该潜在空间中应用扩散过程,从而减少计算复杂度并提高生成质量。以下是对 LDM 代码实现的详细解析。 ### 第一阶段:VAE 的训练 在 LDM 中,VAE 的作用是将高维输入数据(如图像)压缩到一个低维的潜在空间中。训练 VAE 是 LDM 的第一阶段,通常使用 `AutoEncoderKL` 类来实现。该类继承自 PyTorch 的 `nn.Module`,并包含编码器(Encoder)、解码器(Decoder)和 KL 散度损失计算。 ```python class AutoEncoderKL(nn.Module): def __init__(self, in_channels, hidden_channels, z_channels, kl_loss_weight=1e-6): super().__init__() self.encoder = Encoder(in_channels, hidden_channels, z_channels) self.decoder = Decoder(z_channels, hidden_channels, in_channels) self.kl_loss_weight = kl_loss_weight def encode(self, x): z_mean, z_log_var = self.encoder(x) return z_mean, z_log_var def reparameterize(self, z_mean, z_log_var): std = torch.exp(0.5 * z_log_var) eps = torch.randn_like(std) return z_mean + eps * std def decode(self, z): return self.decoder(z) def forward(self, x): z_mean, z_log_var = self.encode(x) z = self.reparameterize(z_mean, z_log_var) x_recon = self.decode(z) return x_recon, z_mean, z_log_var def loss_function(self, x_recon, x, z_mean, z_log_var): recon_loss = F.mse_loss(x_recon, x, reduction='sum') kl_loss = -0.5 * torch.sum(1 + z_log_var - z_mean.pow(2) - torch.exp(z_log_var)) total_loss = recon_loss + self.kl_loss_weight * kl_loss return total_loss ``` 在训练过程中,VAE 会学习如何将输入数据编码为潜在变量 `z`,并通过解码器重建原始数据。KL 散度损失用于确保潜在变量服从标准正态分布,从而使得后续的扩散过程更加稳定。 ### 第二阶段:Diffusion 模型的训练 在完成 VAE 的训练后,LDM 的第二阶段是训练扩散模型。扩散模型的目标是在潜在空间中逐步添加噪声,然后再通过反向扩散过程从噪声中恢复出原始数据。扩散模型通常使用一个 U-Net 结构的神经网络来预测噪声。 ```python class DiffusionModel(nn.Module): def __init__(self, unet, betas, n_timesteps): super().__init__() self.unet = unet self.n_timesteps = n_timesteps self.betas = betas self.alphas = 1 - betas self.alpha_bars = torch.cumprod(self.alphas, dim=0) def forward(self, x, t): noise = torch.randn_like(x) sqrt_alpha_bar = torch.sqrt(self.alpha_bars[t]).view(-1, 1, 1, 1) sqrt_one_minus_alpha_bar = torch.sqrt(1 - self.alpha_bars[t]).view(-1, 1, 1, 1) noised_x = sqrt_alpha_bar * x + sqrt_one_minus_alpha_bar * noise predicted_noise = self.unet(noised_x, t) return predicted_noise, noise def sample(self, z_shape): z = torch.randn(z_shape) for t in reversed(range(self.n_timesteps)): predicted_noise = self.unet(z, torch.full((z.shape[0],), t, device=z.device)) alpha = self.alphas[t] alpha_bar = self.alpha_bars[t] beta = self.betas[t] if t > 0: noise = torch.randn_like(z) else: noise = torch.zeros_like(z) z = (1 / torch.sqrt(alpha)) * (z - (beta / torch.sqrt(1 - alpha_bar)) * predicted_noise) + torch.sqrt(beta) * noise return z ``` 在训练过程中,扩散模型会接收一个潜在变量 `z` 和一个时间步 `t`,并尝试预测在该时间步下添加的噪声。损失函数通常使用均方误差(MSE)来衡量预测噪声与真实噪声之间的差异。 ### 模型整合与推理流程 在完成 VAE 和 Diffusion 模型的训练后,可以将两者整合为一个完整的生成流程。推理时,首先使用扩散模型生成潜在变量 `z`,然后通过 VAE 解码器将其转换为原始数据(如图像)。 ```python def generate_sample(diffusion_model, vae, z_shape): z = diffusion_model.sample(z_shape) generated_image = vae.decode(z) return generated_image ``` ### 代码实现中的关键点 1. **VAE 的 KL 散度损失**:KL 散度损失用于约束潜在变量的分布接近标准正态分布,从而使得扩散过程更加稳定。KL 散度损失的权重通常较小(如 `1e-6`),以避免对重建损失产生过大的影响。 2. **扩散过程中的噪声调度**:扩散模型中的噪声调度(如 `betas` 和 `alphas`)决定了噪声添加的速度。常见的调度方式包括线性调度、余弦调度等。 3. **U-Net 结构**:扩散模型通常使用 U-Net 结构来捕捉多尺度特征,并结合自注意力机制来增强模型对全局结构的理解能力。 ###
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值