一图胜千言,古人喜欢从画中寻觅诗意,妙不可言;现代科学则希望从理解世界的视角来分析图像,于是计算机图像学、计算机视觉风生水起。
我有幸在一所西部高校里做机器人方便的研究,得以接触大量的图像数据,这些图像中既有普通的二维图像(由工业相机采集),也有三维图像(由激光传感器采集)。最近做了的项目里,我要计算出每张图像所对应的位姿数据:所谓的位姿,由两部分组成:位置信息(x, y, z )和角度信息(三个欧拉角),这个问题(Pose Estimation)有趣但很有挑战性,首先我要解决两个点集的配准问题。
由于理解力有限,我无法从高度抽象的角度来描述什么叫点集配准,所以我从自己碰到的问题出发,尽量把点集配准的概念表述清楚。
有两个点集,Model-Point-Set和Data-Point-Set,固定Model-Point-Set,对Data-Point-Set进行旋转(Rotation)和平移(Translation)甚至加上尺度(Scale)变换,使得Data-Point-Set上的点尽量和Model-Point-Set上的点尽最大可能的重合,这变换的过程就叫点集配准。
上面的表述中有两个地方要格外注意:一、模型点集是固定不变的,数据点集要经过旋转平移尽量接近模型点集,而RT变换是一步到位还是慢慢接近?二、“重合”的定义,即如何计算两个点集A和B之间的距离。