嘎嘎详细的三维变换详细讲解，包括视图变换、投影变换等，超级通俗易懂！

原创已于 2024-07-10 15:41:14 修改 · 1.2k 阅读

15 ·

CC 4.0 BY-SA版权

文章标签：

#线性代数 #笔记 #3dsmax #vr #ar

于 2024-07-10 15:38:53 首次发布

笔记记录同时被 2 个专栏收录

20 篇文章

订阅专栏

三维重建

2 篇文章

订阅专栏

前置二维空间的各种变换笔记：二维变换

三维空间中的齐次坐标

从二维变换开始引申，可得到三维中的一个点的表达方式为 $(\mathbf{x}, \mathbf{y}, \mathbf{z}, 1)^{\top}$ ，也就是w=1，而三维的向量则表达为 $(\mathbf{x}, \mathbf{y}, \mathbf{z}, 0)^{\top}$ ，也就是w=0
由于三维空间的一个点是上述格式的，若其中的w由于两点相加或者其他原因超过了1，则我们令这个点的xyz都除以w，那么w就会变成1了，也就是xyz所表达的位置坐标为 $(x / w, y / w, z / w)$
而在三维空间中的齐次变换矩阵则如 $\left(\begin{array}{l} x^{\prime} \\ y^{\prime} \\ z^{\prime} \\ 1 \end{array}\right)=\left(\begin{array}{lllc} a & b & c & t_x \\ d & e & f & t_y \\ g & h & i & t_z \\ 0 & 0 & 0 & 1 \end{array}\right) \cdot\left(\begin{array}{l} x \\ y \\ z \\ 1 \end{array}\right)$ 所示
其中矩阵的abcdefghi表达为线性变换，tx、ty、tz表达为平移变换，总体表达为一种仿射变换。
同样，矩阵的最后一行也是（0, 0, 0, 1）
其中线性变换和平移变换的执行顺序是先执行线性变换，再执行平移变换，具体可以从我们二维仿射变换公式看 $\binom{x^{\prime}}{y^{\prime}}=\left(\begin{array}{ll} a & b \\ c & d \end{array}\right) \cdot\binom{x}{y}+\binom{t_x}{t_y}$ ，先乘线性变换矩阵，再加平移变换。

三维齐次变换

由二维向外引申，便可得到三维的各种变换矩阵形式
缩放变换： $\mathbf{S}\left(s_x, s_y, s_z\right)=\left(\begin{array}{cccc} s_x & 0 & 0 & 0 \\ 0 & s_y & 0 & 0 \\ 0 & 0 & s_z & 0 \\ 0 & 0 & 0 & 1 \end{array}\right)$
平移变换： $\mathbf{T}\left(t_x, t_y, t_z\right)=\left(\begin{array}{cccc} 1 & 0 & 0 & t_x \\ 0 & 1 & 0 & t_y \\ 0 & 0 & 1 & t_z \\ 0 & 0 & 0 & 1 \end{array}\right)$
旋转变换：
- 绕x轴旋转： $\mathbf{R}_x(\alpha)=\left(\begin{array}{cccc} 1 & 0 & 0 & 0 \\ 0 & \cos \alpha & -\sin \alpha & 0 \\ 0 & \sin \alpha & \cos \alpha & 0 \\ 0 & 0 & 0 & 1 \end{array}\right)$
- 绕y轴旋转： $\mathbf{R}_y(\alpha)=\left(\begin{array}{cccc} \cos \alpha & 0 & \sin \alpha & 0 \\ 0 & 1 & 0 & 0 \\ -\sin \alpha & 0 & \cos \alpha & 0 \\ 0 & 0 & 0 & 1 \end{array}\right)$
- 绕z轴旋转： $\mathbf{R}_z(\alpha)=\left(\begin{array}{cccc} \cos \alpha & -\sin \alpha & 0 & 0 \\ \sin \alpha & \cos \alpha & 0 & 0 \\ 0 & 0 & 1 & 0 \\ 0 & 0 & 0 & 1 \end{array}\right)$
- 上述旋转都是简单的绕轴旋转，但是如果是一般性的旋转又该怎么处理呢？
- 图形学有一个大佬，就写了一个矩阵，可以把任意一个轴的旋转写成一个矩阵，这个旋转公式就是著名的Rodrigues旋转公式，公式为 $\mathbf{R}(\mathbf{n}, \alpha)=\cos (\alpha) \mathbf{I}+(1-\cos (\alpha)) \mathbf{n} \mathbf{n}^T+\sin (\alpha) \underbrace{\left(\begin{array}{ccc} 0 & -n_z & n_y \\ n_z & 0 & -n_x \\ -n_y & n_x & 0 \end{array}\right)}_{\mathbf{N}}$
- 其中n代表要绕着的旋转轴向量

图形变换

模型变换：类比于在一个场景中，模型的摆放，也就是拍照时所拍的物体放在哪
视图变换：类比于，找到一个相机的角度，也就是相机在哪里拍照
投影变换：从模型和视图变换之后做一个3d到2d的投影，类似与相机和拍摄物体都确定好了，拍照的这么个过程

视图变换如何做？

也就是怎么定义一个相机视角
首先需要相机的位置 $\vec{e}$ ，其次还需要相机的朝向 $\hat{g}$ ，也就是往哪看，最后需要一个向上方向 $\hat{t}$ 来定义相机是往上看还是往下看。至此，即可确定一个相机的视角了。
由于只要能保住相机和其所拍摄的物体所有的相对位置都是固定的，那么无论相机和这个物体被怎样移动，那么最后拍摄下来的照片应该都是一样的才对，所以为了方便运算，有一个约定俗成的规定，就是将相机永远摆放至原点
假设当前相机视角如图所示，应该怎样将其变换到原点出呢
- 首先做一个平移变换将相机移动到原点
- 再将相机朝向 $\hat{g}$ 做旋转变换移动到-Z上
- 最后将向上朝向 $\vec{t}$ 移动到Y上，那么 $\times t$ 也就自动朝向X了
- 我们可以定义整个变换矩阵为M，也就是用M来表达刚刚的所有操作，那么就有 $M_{\text {view }}=R_{\text {view }} T_{\text {view }}$
- 也就是先乘平移变换再乘旋转变换即可得到总的M变换矩阵，而这个变换矩阵T很好写，为 $T_{\text {view }}=\left[\begin{array}{cccc} 1 & 0 & 0 & -x_e \\ 0 & 1 & 0 & -y_e \\ 0 & 0 & 1 & -z_e \\ 0 & 0 & 0 & 1 \end{array}\right]$ ，也就是将自己的所在点各减去自己点离原点的距离即可
- 而旋转R矩阵则相对较难，很难直观的知道怎样从一个轴变换到X、Y、-Z轴上，但是我们如果反过来思考，如果要把X、Y、-Z轴变换到某一个轴上，就很简单了，这就是前文提到的逆变换，而我们知道，逆变换矩阵是一个正交矩阵，而正交矩阵有一个性质就是他的逆是他自己的转置 $\mathbf{R}_{-\theta}=\mathbf{R}_{\theta}^T$ ，于是我们只需要求出X、Y、Z如何变换到 $g\times t$ 、 $t$ 和 $- g$ 上，再对该矩阵转置一下，就能得到从 $g\times t$ 、 $t$ 和 $g$ 变换到X、Y、-Z的变换矩阵了。
- 比如要将X轴 $\begin{bmatrix} 1\\ 0\\ 0\\ 0 \end{bmatrix}$ 旋转到 $\times t$ 轴 $\begin{bmatrix} x_{\hat{g} \times \hat{t} }\\ y_{\hat{g} \times \hat{t} }\\ z_{\hat{g} \times \hat{t} }\\ 0 \end{bmatrix}$ 上，则旋转矩阵为 $\left[\begin{array}{cccc} x_{\hat{g} \times \hat{t}} & 0 & 0 & 0 \\ y_{\hat{g} \times \hat{t}} & 0 & 0 & 0 \\ z_{\hat{g} \times \hat{t}} & 0 & 0 & 0 \\ 0 & 0 & 0 & 1 \end{array}\right]$ ，同理可得Y、Z轴，将其合并一下，即可得到总的逆旋转矩阵 $R_{view}^{-1}=\left[\begin{array}{cccc} x_{\hat{g} \times \hat{t}} & x_t & x_{-g} & 0 \\ y_{\hat{g} \times \hat{t}} & y_t & y_{-g} & 0 \\ z_{\hat{g} \times \hat{t}} & z_t & z_{-g} & 0 \\ 0 & 0 & 0 & 1 \end{array}\right]$ ，则转置后的旋转矩阵为 $R_{view}=\left[\begin{array}{cccc} x_{\hat{g} \times \hat{t}} & y_{\hat{g} \times \hat{t}} & z_{\hat{g} \times \hat{t}} & 0 \\ x_t & y_t & z_t & 0 \\ x_{-g} & y_{-g} & z_{-g} & 0 \\ 0 & 0 & 0 & 1 \end{array}\right]$ ，这便得到了从任意轴旋转到原点X、Y、-Z轴的旋转矩阵了，再和前面的平移矩阵T相乘，即可得到最终的变换矩阵M。
也就是，只要相机和所拍摄关联到的物体都按照这个M矩阵进行变换，那么在变换前和变换后所拍摄到的内容应该都是一样的。

投影变换如何做？

正交投影：投影前后无透视扭曲，即无近大远小的特性
- 而想要将三维物体在无透视变化的情况下投影到二维平面上其实很简单，只需要去除这个物体的z轴就行了
- 假设我们要投影的物体如上所示，可以发现，只要将他俩的z轴去掉，那么剩下的x，y自然就是他在二维平面上的投影。
- 但是一般情况下，需要先将这个物体通过变换矩阵转移到原点xy轴的-1到1之间的矩形之中，这样做的目的是为了简化后续操作，也就是大家都遵守这套规范，后续api啊各方面的开发就会很简便。
- 但是这样做就会出现一个问题，就是物体的前后信息丢失了，你无法显示出物体的深度信息，为了解决这个问题，通常会保留下这个z轴，也就是说先将物体通过各种变换转移到原点处xyz都在-1到1的一个立方体中，这个立方体也叫做标准化空间，这样的话物体之间的深度信息就会保留下来，也就是x和y坐标会被用来确定物体在屏幕上的位置，而z坐标则用于深度测试等目的。而最终的三维到二维的投影呢则是对这个标准化空间里做一个切片，z坐标被用来进行深度测试和裁剪，而x和y坐标则被用来确定最终在屏幕上的位置。也就是如下图所示。
- 其中l、r为物体的左右（left、right），b、t为下上（bottom、top），f、n为远近（far，near）。
- 而将被拍摄物体通过变换矩阵到原点的-1到1的空间内也就很简单了，先平移变换，再缩放变换即可（对应着上图的二图和三图）。
- 平移变换可以直接将物体的中心处移动到原点处即可，而物体的中心计算方法就很简单，x轴的中心就是 $\frac{r+l}{2}$ ，yz轴同理，那么将物体最终移动到中心就是自身每个轴减去这个值即可，于是平移变换矩阵为 $\left[\begin{array}{cccc} 1 & 0 & 0 & -\frac{r+l}{2} \\ 0 & 1 & 0 & -\frac{t+b}{2} \\ 0 & 0 & 1 & -\frac{n+f}{2} \\ 0 & 0 & 0 & 1 \end{array}\right]$
- 而缩放变换呢就是要将物体规范化到-1到1的空间内，-1到1的长度为2，那么x轴的缩放就是用2除以物体的宽度，也就是 $\frac{2}{r-l}$ （具体数学推理就是求一个线性变换y=ax+b，将x等于l和r代入即可得到a和b的值，其中a就是缩放因子，b就是平移因子，最后解的a就是这个2/(r-l)），其他轴同理，于是缩放矩阵为 $\left[\begin{array}{cccc} \frac{2}{r-l} & 0 & 0 & 0 \\ 0 & \frac{2}{t-b} & 0 & 0 \\ 0 & 0 & \frac{2}{n-f} & 0 \\ 0 & 0 & 0 & 1 \end{array}\right]$
- 而最终的正交投影变换矩阵为他俩相乘 $M_{\text {ortho }}=\left[\begin{array}{cccc} \frac{2}{r-l} & 0 & 0 & 0 \\ 0 & \frac{2}{t-b} & 0 & 0 \\ 0 & 0 & \frac{2}{n-f} & 0 \\ 0 & 0 & 0 & 1 \end{array}\right]\left[\begin{array}{cccc} 1 & 0 & 0 & -\frac{r+l}{2} \\ 0 & 1 & 0 & -\frac{t+b}{2} \\ 0 & 0 & 1 & -\frac{n+f}{2} \\ 0 & 0 & 0 & 1 \end{array}\right]=\left[\begin{array}{cccc} \frac{2}{r-l} & 0 & 0 & -\frac{r+l}{2} \\ 0 & \frac{2}{t-b} & 0 & -\frac{t+b}{2} \\ 0 & 0 & \frac{2}{n-f} & -\frac{n+f}{2} \\ 0 & 0 & 0 & 1 \end{array}\right]$
- 最后通过这个矩阵M就可以将任意物体规范化到原点处-1到1的标准空间中啦~
透视投影：有近大远小的特性
- 将三维物体通过透视投影到二维平面上有一个办法，由于透视投影他可以理解成沿着一个点，向外延申出四条线，如上图，那么所包裹住的物体就是一个四棱台，而我们知道，正交投影所包裹住的是一个长方体，那我们就可以先将这个四棱台压成长方体，再按照正交投影的办法去变换即可。
- 也就是将上面左图的远平面在xy轴处压成近平面的矩形，最终呈现右图的样子。显然，在这个变化当中，近平面的x、y、z都不会发生改变，而远平面的z和远平面中心点也不会发生改变。
- 如上图所示（(x’,y’,z’)是近平面的点，(x,y,z)是远平面的点），根据相似三角形原则，若点(x,y,z)想变换到点(x’,y’,z’)上，y和y’的比值一定等于n和z的比值，于是可得 $y^{\prime}=\frac{n}{z} y$ ，同理可得 $x^{\prime}=\frac{n}{x} y$
- 也就是说原本(x,y,z,1)和一个矩阵相乘后，会得到(nx/z,ny/z,不知道,1)这样的向量，而我们知道，在齐次坐标中，一个点同乘任何非0常数，所表达的矩阵依然一致，也就是(nx/z,ny/z,不知道,1)和(nx,ny,不知道,z)他俩所表达的点都是(x,y,z)，也就是 $M_{\text {persp } \rightarrow \text { ortho }}^{(4 \times 4)}\left(\begin{array}{l} x \\ y \\ z \\ 1 \end{array}\right)=\left(\begin{array}{c} n x \\ n y \\ \text { unknown } \\ z \end{array}\right)$
- 很容易就能得到这个M矩阵为 $M_{\text {persp ortho }}=\left(\begin{array}{cccc} n & 0 & 0 & 0 \\ 0 & n & 0 & 0 \\ ? & ? & ? & ? \\ 0 & 0 & 1 & 0 \end{array}\right)$
- 而上述矩阵中的第三行的值可以通过前面所说的两个条件来计算，就是“近平面的x、y、z都不会发生改变，而远平面的z和远平面中心点也不会发生改变。”
- 设近平面的z轴值为n，也就是上面的M矩阵乘上近平面的(x,y,n,1)后仍然是(x,y,n,1)，然后在这个齐次坐标同乘一个n，也就是 $M_{\text {persp } \rightarrow \text { ortho }}^{(4 \times 4)}=\left(\begin{array}{l} x \\ y \\ n \\ 1 \end{array}\right)==\left(\begin{array}{c} n x \\ n y \\ n^2 \\ n \end{array}\right)$
- 那么此时我们将M矩阵的第三行当个向量提取出来，也就是 $\left(\begin{array}{llll} 0 & 0 & A & B \end{array}\right)\left(\begin{array}{l} x \\ y \\ n \\ 1 \end{array}\right)=n^2$ ，前面两个数之所以为0是因为很明显最后的这个 $n^2$ 肯定和xy无关，相乘后也就是 $A n+B=n^2$ 。
- 而远平面的中心点在变换中不会发生改变，设远平面的z轴值为f，而远平面中心点则表示为 $\left(\begin{array}{l} 0 \\ 0 \\ f \\ 1 \end{array}\right)$ ，同时乘个f，则为 $\left(\begin{array}{c} 0 \\ 0 \\ f^2 \\ f \end{array}\right)$ ，和前面的 $\left(\begin{array}{llll} 0 & 0 & A & B \end{array}\right)$ 相乘后也就是 $A f+B=f^2$ ，解两式可得 $\begin{aligned} & A=n+f \\ & B=-n f \end{aligned}$
- 这样就得到了最终的变换矩阵 $M_{\text {persp ortho }}=\left(\begin{array}{cccc} n & 0 & 0 & 0 \\ 0 & n & 0 & 0 \\ 0 & 0 & n+f & -nf \\ 0 & 0 & 1 & 0 \end{array}\right)$ ，这个矩阵可以将任意物体从透视投影的四棱台挤压成正交投影的正方形
- 最后再按照正交投影的方法来完成后续步骤即可完成透视投影 $M_{\text {persp }}=M_{\text {ortho }} M_{\text {persp } \rightarrow \text { ortho }}$