想要得知图像中哪些是有意义的,必须先要明确这样一个问题:在一幅图像中,只有在一定的尺度范围内,一个物体才有意义。举一个例子,树枝这个概念,只有在几厘米到几米的距离去观察它,才能感知到它的确是树枝;如果在微米级或者千米级去观察,就不能感知到树枝这个概念了,这样的话可以感知到的是细胞或者是森林的概念。
因而,如果想要描述现实世界的结构,或者将三维物体映射到二维的图像上去,多尺度表示将会至关重要。多尺度表示的概念很容易理解,举例说明,绘制地图时会有比例尺的概念。世界地图中就只能够显示大洲大洋,以及较大的地域和国家;而一个城市地图,甚至可以详细的显示出每条街道。
sift是用来找corner point的,corner point指的是gradient比较大的点。然而寻找的时候需要用到一个窗口来寻找,一般小的corner需要用小的窗口来寻找,而大的corner用小的窗口是找不到的,用大的窗口才能找到。所有他们用了一个叫Gaussian pyramid 的东西,从底下到顶上,一层一层,窗口逐渐变大,这样图像里大的小的corner就都可以找到。这样做的目的很明显,就是可以使得两个一样图但是不一样尺寸配对。而相对来说,Harris corner points却不拥有此功能,因为他只是在一个尺度下找,所以当两个图不一样大小的时候它工作的不怎么好。Gaussian pyramid 是一个很重要的概念,基本原理是两层高斯相减就可以飞到相对尺度的微分方程。不只是sift,surf,freak等都会用到Gaussian pyramid,建议你多了解一下