视觉SLAM（二）：相机与图像

三维刚体运动与相机模型解析：从世界坐标到像素坐标

最新推荐文章于 2024-12-28 16:12:35 发布

原创最新推荐文章于 2024-12-28 16:12:35 发布 · 897 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#自动驾驶 #图像处理

控制理论专栏收录该内容

12 篇文章

订阅专栏

本文详细介绍了三维刚体运动的数学描述，包括标准正交基法和旋转向量法计算旋转矩阵，以及从世界坐标系通过GNSS和IMU数据转换到相机坐标系的过程。接着，阐述了相机模型，重点讨论了针孔模型、畸变校正以及双目相机如何获取深度信息。最后，提到了像素数据结构的关键属性，如位置、颜色、灰度和深度值。

1. 三维刚体运动

对于三维空间的物体，可以通过三个坐标描述其位置，但对于机器人 or 飞行器航天器来讲，还需要另外三个量描述其姿态——俯仰角、滚转角和偏航角，这三个欧拉角可以通过陀螺仪测得。不同的位姿则对应不同的载体坐标系。

这一节内容主要解决的问题是：已知世界（惯性）坐标系中一点 $a$ ，以及刚体的位姿，求得 $a$ 在载体坐标系中的坐标。

1.1. 问题阐述

已知：北东地世界坐标系 $O_w X_w Y_w Z_w$ ，以及其一组标准正交基 $e_w = [e_{wx},e_{wy},e_{wz}]^T$ 。

一点 $a$ 且点 $a$ 在世界坐标系的表示为 $a=[e_{wx},e_{wy},e_{wz}]\left[\begin{array}{lcr} a_{wx} \\ a_{wy} \\ a_{wz} \end{array} \right]$
刚体 $c$ 的世界坐标为 $c_w=(c_{wx},c_{wy},c_{wz})$ ，若刚体坐标系为 $O_c X_c Y_c Z_c$ 。

并且刚体的偏航角、俯仰角和滚转角分别为 $\theta_{Y_w} \theta_{X_c} \theta_{Z_c}$ （此处与课本中坐标系定义不同，是为了与2.1.的相机坐标系一致），单位 $r a d$ 。

求：点 $a$ 在刚体坐标系 $O_c X_c Y_c Z_c$ 下的坐标 $a_{cx},a_{cy},a_{cz}]$
在这里插入图片描述

1.2. 变换矩阵

根据矩阵理论的描述，不同坐标系下同一个点的坐标是通过向量的旋转和平移得到的，即应满足
$a_c=R_{cw}a_w + t_{cw} \tag{1}$

其中 $R_{cw}$ 为从世界坐标系到载体坐标系的 旋转矩阵， $t_{cw}$ 表示载体坐标系中从载体坐标系原点到世界坐标系原点的向量。

注意 $R$ 与 $t$ 的下标记法： $R_{12}$ 表示从坐标系2旋转到坐标系1的旋转矩阵， $t_{12}$ 表示坐标系1中坐标系1原点到坐标系2原点的向量。

或者写成齐次形式以方便多次旋转和平移

$\left[\begin{array}{lcr} a_{c} \\ 1 \end{array} \right]= \left(\begin{array}{lcr} R_{cw} & R_{cw}t_{cw}\\ 0^T & 1 \\ \end{array}\right) \left[\begin{array}{lcr} a_{w} \\1 \end{array} \right]= T\left[\begin{array}{lcr} a_{w} \\1 \end{array} \right] \tag{2,重要}$

其中 $T$ 就叫作变换矩阵，由于 $c_w$ 已知，因此对旋转矩阵 $R$ 的求解则需要解决。

标准正交基法

思路是根据矩阵理论中两个向量空间基的变换来实现实现旋转关系的，所以需要先确定载体坐标系在世界坐标系中的三个基。

标准正交基则是通过基本旋转得到的，按照偏航-俯仰-滚转的顺序确定标准基。

1. 假设载体坐标系原点就是世界坐标系原点，先绕 $Y_w$ 偏航 $\theta_{Y_w}$
$e_c=e_w \left(\begin{array}{lcr} cos\theta_{Y_w} & 0& sin\theta_{Y_w} \\ -sin\theta_{Y_w} & 0& cos\theta_{Y_w} \\ 0& -1& 0 \end{array}\right)$

2. 之后绕 $X_c$ 俯仰 $\theta_{X_c}$
$e_c=e_c \left(\begin{array}{lcr} 1& 0 & 0\\ 0& cos\theta_{X_c}& -sin\theta_{Y_c} \\ 0& sin\theta_{X_c}& cos\theta_{X_c} \end{array}\right)$

3. 最后绕 ${Z_c}$ 滚转 $\theta_{Z_c}$

$e_c=e_c \left(\begin{array}{lcr} cos\theta_{Z_c} & sin\theta_{Z_c} &0 \\ -sin\theta_{Z_c} & cos\theta_{Z_c} & 0 \\ 0 & 0 & 1 \end{array}\right)$

最终同时进行了偏航俯仰滚转的载体坐标系的标准正交基就为上述三个系数矩阵不断右乘，即

$e_c= e_w \left(\begin{array}{lcr} c\theta_{Y_w}c\theta_{Z_c}-s\theta_{X_c}s\theta_{Y_w}s\theta_{Z_c} & c\theta_{Y_w}s\theta_{Z_c}+s\theta_{X_c}s\theta_{Y_w}s\theta_{Z_c} & c\theta_{X_c}c\theta_{Y_w} \\ s\theta_{Y_w}c\theta_{Z_c}-s\theta_{X_c}s\theta_{Y_w}s\theta_{Z_c} & -s\theta_{Y_w}s\theta_{Z_c}+s\theta_{X_c}c\theta_{Y_w}c\theta_{Z_c}& c\theta_{X_c}c\theta_{Y_w} \\ c\theta_{X_c}s\theta_{Z_c} & -c\theta_{X_c}s\theta_{Z_c} & s\theta_{X_c} \end{array}\right)$

$\quad\tag{3}$

有了载体坐标系的三个标准正交基在世界坐标系的表达式之后，就可以表示旋转矩阵了，旋转矩阵则为

$R_{cw}=e_ce_w^T \tag{4,重要}$

旋转向量法

用一个单位长度向量 $n=[n_1,n_2,n_3]^T$ 表示旋转的轴，用角度 $\theta$ 表示旋转角（右手定则，大拇指转向轴方向时其余四指的方向为正方向），旋转向量则是 $\theta n$ 。这样就可以表示旋转矩阵了。即
$R=cos\theta I+(1-cos\theta)nn^T+sin\theta · n^-$

其中 $n^-$ 为 $n$ 的反对称矩阵，并且可把矩阵外积转化为矩阵内积，即

$\forall a \in \mathbb{R^{3×1}},n^-·a = n×a$
$n^- = \left(\begin{array}{lcr} 0 & -n_3 & n_2 \\ n_3 & 0 & -n_1 \\ -n_2 & n_1 & 0 \end{array}\right)$

综上所述，通过GNSS和IMU测得某时刻机器人的位置和角姿态信息，就可以计算出旋转矩阵，进而得到变换矩阵，就可以测得空间中某一点在机器人眼中的位置。

2. 相机模型

下面介绍相机模型，对于智能体来讲，就需要视觉相机实现定位。本节主要讲解相机的成像过程。

2.1. 针孔模型

针孔相机模型描述了从现实世界坐标点到像素平面坐标点的一种映射。根据小孔成像原理，现实世界的物体经过小孔成像之后，在透镜后方的平面会形成倒立缩小的实像。

但实际相机我们看到的并不是倒立的，这是通过软件处理将像素平面上的所有点全部关于中心对称之后的结果，这样人眼看到的就是正像了。
如图所示：

在这里插入图片描述

如图中所示， $P$ 为现实世界中的点， $O_w X_w Y_w Z_w$ 为静止的世界坐标系， $O_c X_c Y_c Z_c$ 为相机坐标系， $P^{'}$ 为 $P$ 经过小孔成像映射到的像素平面或是物理成像平面上的点，而 $P^{''}$ 则是经过软件处理之后，或我们眼睛看到的点， $o u v$ 为像素坐标系。

像素坐标系与一般的坐标系不同，像素坐标系的单位为像素，即有多少个像素点，因此像素坐标系需要另外两个参数 $d u$ 表示 $u$ 轴上单个像素的长度，单位为米/像素，同理 $d v$ 对应 $v$ 轴。

需要说明的是，若按上图所示则 $P$ 会映射到像素坐标系的 $P^{'}$ ，这样产生的像为倒像，而实际我们看到的正像是经过对称之后的。有时候为了方便理解，可将像素平面 $u o v$ 直接绘制在相机中心 $O_c$ 前面 $f$ 处得到等效图，如下图所示。

在这里插入图片描述

2.2. 畸变模型

实际相机由于相机透镜形状可能造成坐标的畸变，即径向畸变（例如实际是直线而像素平面上显示的是曲线），以及像素平面和透镜不平行造成的切向畸变。因此对于点 $P$ 的成像，则主要考虑这两种畸变。
在这里插入图片描述

而畸变模型的构建则可以看作是从相机坐标系向像素坐标系投影时，不再是简单的相似三角形，而是遵循另一个非线性规律，这个规律将从2.3.给出。

2.3. 根据GNSS与IMU求像素坐标

由于需要从相机的角度对世界坐标系中的点 $P$ 进行分析，所以需要根据GNSS和IMU的数据计算出像素坐标系（相机显示器）上 $P^{''}$ 的像素坐标。该问题与1.1.的问题类似。

已知：北东地世界坐标系 $O_w X_w Y_w Z_w$ ，以及其一组标准正交基 $e_w = [e_{wx},e_{wy},e_{wz}]^T$ 。

点 $P$ 的世界坐标系为 $P_w=(P_{wx},P_{wy},P_{wz})^T$

相机坐标系为 $O_c X_c Y_c Z_c$ 且光心 $O_c$ 的世界坐标为 $O_{c_w}=(O_{c_{wx}},O_{c_{wy}},O_{c_{wz}})^T$ 。

机器人的偏航角、俯仰角和滚转角分别为 $\theta_{Z_w} \theta_{Y_c} \theta_{X_c}$ 。

求：点 $P$ 在像素坐标系中的映射点 $P^{''}$ 的像素坐标 $P''_{pu},P''_{pv})^T$

从世界坐标系到相机坐标系

由于已知 $e_w$ 和光心世界坐标 $O_{c_w}$ ，直接根据式 $(3)$ 求得 $e_c$ ，再根据式 $(4)$ 求得旋转矩阵 $R_{cw}$ ，进而得出点 $P$ 在相机坐标系中的坐标 $P_c=(P_{cx},P_{cy},P_{cz})^T$

$P_c=R_{cw}P_w+t_{cw}$

从相机坐标系到像素坐标系

之后就可以将点 $P$ 从三维的相机坐标系映射到二维的像素坐标系了，可直接参考相机等效图计算。

● 若不考虑畸变
点 $P''(P''_{px},P''_{py})$ 求得为

$P''_{pu}=\frac{1}{du} ·f·\frac{P_{cx}}{P_{cz}}+c_x,\quad P''_{pv}=\frac{1}{dv} ·f·\frac{P_{cy}}{P_{cz}}+c_y$

其中 $c_x$ 和 $c_y$ 分别为向量 $oO_c$ 在轴 $o u$ 和轴 $o v$ 上的映射长度， $f$ 为焦距。

再将上述映射通过齐次坐标的形式表示出来则是

$\left[\begin{array}{lcr} P''_{pu} \\ P''_{pv} \\ 1 \end{array} \right] =\left(\begin{array}{lcr} \frac{f}{du} & 0& c_x & 0\\ 0 & \frac{f}{dv}& c_y& 0\\ 0& 0& 1& 0 \end{array}\right)·\frac{1}{P_{cz}}· \left[\begin{array}{lcr} P_{cx} \\ P_{cy} \\ P_{cz} \\ 1 \end{array} \right]$

其中矩阵 $\left(\begin{array}{lcr} \frac{f}{du} & 0& c_x \\ 0 & \frac{f}{dv}& c_y\\ 0& 0& 1 \end{array}\right)$ 称为该相机的内参数，即该矩阵只与摄像机有关。旋转矩阵 $R$ 和光心位置 $O_{c_w}$ 则成为相机的外参数。

此时从世界坐标到像素坐标的转换公式就为

$P''=\left(\begin{array}{lcr} 1 & 0& 0\\ 0 &1& 0\\ \end{array}\right) · K·\frac{R·(P_w-O_{c_w})}{(0 \quad 0 \quad 1)·R·(P_w-O_{c_w})} \tag{重要}$

● 若考虑畸变
点 $P''(P''_{pu},P''_{pv})$ 求得为

$P''_{pu}=\frac{1}{du} ·f·(l \frac{P_{cx}}{P_{cz}}+2p_1\frac{P_{cx}P_{cy}}{P_{cz}^2}+2p_2\frac{P_{cx}^2}{P_{cz}^2}+p_2r^2)+c_x$

$\quad P''_{pv}=\frac{1}{dv} ·f·(l \frac{P_{cy}}{P_{cz}}+2p_2\frac{P_{cx}P_{cy}}{P_{cz}^2}+2p_1\frac{P_{cx}^2}{P_{cz}^2}+p_1r^2)+c_y$

其中 $l=1+k_1r^2+k_2r^4+k_3r^6$ ，且参数 $k_1,k_2,k_3,p_1,p_2$ 为与相机畸变相关参数。

由该过程可见， $P$ 在像素平面上的投影 $P^{''}$ 坐标是二维的，因此已知 $P_w$ 可以求 $P^{''}$ ，但从 $P^{''}$ 反推 $P_w$ 则是不可能的。其实就是单目相机的劣势，少了深度信息。

2.4. 像素数据结构

在知道点 $P$ 的成像点 $P^{''}$ 之后，相机还会采取点 $P$ 的其他信息，包括颜色、距离等信息，有了这些信息才能完整的描述像素 $P^{''}$ 。

一个像素的数据结构可以用结构体/类来描述，这里先列出一些属性。

● 像素坐标的位置 $u, v$
这个比较好理解，但是u和v是有最大值的，即屏幕的 分辨率 通常所说的1920x1080 或 800x600描述的就是分辨率，表示 $u$ 轴像素个数（列）× $v$ 轴像素个数（行）。而用数组描述时则为先行后列，例如1920x1080分辨率，构建的数组则为

vector<vector<pixel> image{1080,vector<pixel>{1920}};

● 彩色图像RBG(RedBlueGreen, RGB)
使用红色、蓝色、绿色三通道构成的彩色像素，每个颜色数值可用1Byte（8bit,0~255）表示颜色的深浅，因此RGB一共24Byte。

● 灰度图与灰度值
灰度图没有颜色，表示R=G=B=灰度值时，可用1Byte表示（8bit,0~255，即灰度级别为256）。灰度值为0表示纯黑色，255表示纯白色。
彩色图像可转化为灰度图，RGB可按照一定算法转化为灰度值，例如灰度值= R×0.3 + G×0.59 + B×0.11

● 深度值
记录该像素点对应实际物体点到相机的距离，可通过双目相机模型或 RGB-D相机测算深度值，单位毫米mm。位数决定最大距离，例如2Byte（16bit,0-65536，0m-65m）。

下面给出一个像素类的例子，注意由于有些数据类型为char在获得实际值得时候需要做类型转换。


extern const horizontalPixelsNum = 1920;
extern const verticalPixelsNum = 1080;

class pixel{
public:
	unsigned int u,v;		//位置,4B
	unsigned char R,G,B;	//三通道彩色 1B,0~255
	unsigned char gray;		//灰度值 1B,0~255
	unsigned short depth;	//深度值 2B,0~65535
public:
	pixel(){u = 0;v = 0;R = 255;G = 255;B = 255;gray = 0.3*R+0.59*G+0.11*B;depth = 0;}
	pixel(int row,int column,unsigned char grayScale = 255,unsigned short depthValue=0)
	{
		if(row > verticalPixelsNum || column > horizontalPixelsNum)
			{v = 0; u = 0;}
		else
			{v = row;u = column;}
		
		gray = grayScale;
		R=gray; G=gray; B=gray;
		depth = depthValue ;
	}
	pixel(int r,int c,unsigned char red,unsigned char green,unsigned char blue,unsigned short depthValue = 0)
	{
		if(row > verticalPixelsNum || column > horizontalPixelsNum)
			{v = 0; u = 0;}
		else
			{v = row;u = column;}
		R = red; B = blue; G = green;
		gray = 0.3*R + 0.59*G + 0.11*B; 
		depth = depthValue;
	}
~pixel(){};
};

vector<vector<pixel> image{verticalPixelsNum,vector<pixel>{horizontalPixelsNum}};

for(int r = 0;r <= verticalPixelsNum;r++)
	for(int c = 0;c <= horizontalPixelsNum;c++)
		image[r][c] = pixel(r,c);
		
cout<<int(image[1079][1919]);

3. 双目相机模型

顾名思义就是两个相机两个成像平面，一般为左右两个相机，两个相机就有利于我们估计点 $P$ 的深度信息，甚至通过图像3D还原物体在现实世界的样子。
在这里插入图片描述
如图所示有左右两个相机坐标系 $O_RX_RY_RZ_R$ 和 $O_LX_LY_LZ_L$ ，点 $P$ 为现实世界的一点。左右双目相机是平行的，光心距离 $O_LO_R=b$ 称作基线。