目录
2.1视觉感知要素
人的直觉和分析在选择一种技术而不选择另一种技术时会起核心作用,这种选择通常是基于主观的视觉判断做出的。
2.2光和电磁波谱
电磁波可以看成是以波长λ传播的正弦波或者可以看成是没有质量的粒子流,每个粒子以波的模式以光速传播和移动。
光是一种特殊的电磁辐射,它可以被人眼感知。为便于讨论,把可见光谱(彩色)段扩展后示于下图。电磁波谱的可见光波段的跨越范围约为0.43 μm(紫色)~0.79μm(红色)。为方便起见,彩色谱分为6个主要区域:紫色、蓝色、绿色、黄色、橘黄色和红色。每种颜色(或电磁波谱的其他分量)不是突然终止的,而是混合平滑地过渡到另一种颜色的,如图所示。人感受一个物体的颜色由物体反射光的性质决定。
2.3图像的感知和获取
我们感兴趣的多数图像都是由“照射”源和形成图像的“场景”元素对光能的反射或吸收而产生的。照射可能由电磁能源引起,如雷达、红外线或X射线系统。照射也可以由非传统光源(如超声波)甚至由计算机产生的照射模式产生。类似地,场景元素可能是熟悉的物体,但它们也可能是分子、沉积岩或人类的大脑。
获取图像的主要方式有:
1.使用单个传感器获取图像,如图:
2.使用条带传感器获取图像,如图:
3.使用传感器阵列获取图像
2.3.1简单的图像形成模型
我们用形如f(x,y)的二维函数来表示图像。在空间坐标(x,y)处,f的值或幅度是一个正的标量,其物理意义由图像源决定。
函数f(x,y)可由两个分量来表征:(1)入射到被观察场景的光源照射总量;(2)场景中物体所反射的光照总量。这两个分量分别称为入射分量和反射分量,且分别表示为i(x,y)和r(x,y)。两个函数作为一个乘积合并形成f(x,y),
即f(x,y)=i(x,y)r(x,y)
其中,0<i(x,y)<∞
0<r(x,y)<1
2.4图像取样和量化
为了产生一幅数字图像,我们需要把连续的感知数据转换为数字形式。这种转换包括两种处理:取样和量化。
2.4.1取样和量化的基本概念
下面四张图说明了取样的量化的基本概念:
图一:显示了一幅连续图像f,我们想把它转换为数字形式。一幅图像的x和y坐标及幅度可能都是连续的。为将它转换为数字形式,必须在坐标上和幅度上都进行取样操作。对坐标值进行数字化称为取样,对幅值数字化称为量化。
图二:沿线段AB的连续图像幅度值(灰度级)的曲线。随机变化是由图像噪声引起的。为了对该函数取样,我们沿线段AB等间隔地对该函数取样。
图三:每个样本的空间位置由图形底部的垂直刻度指出。样本用放在函数曲线上的白色小方块表示。这样的一组离散位置就给出了取样函数。
图四:取样和量化操作生成的数字样本如所示。
2.4.2数字图像表示
令f(s,t)表示一幅具有两个连续变量s和t的连续图像函数。通过取样和量化,我们可把该函数转换为数字图像。假如我们把该连续图像取样为一个二维阵列f(x,y),有三种基本方法表示f(x,y)。图一是一幅函数图,用两个坐标轴决定空间位置,第三个坐标是以两个空间变量x和y为函数的f(灰度)值。
图二是更一般的表示。它显示了f(x,y)出现在监视器或照片上的情况。这里,每个点的灰度与该点处的f值成正比。灰色或白色,如图2.18(b)所示。第三种表示是将f(x,y)的数值简单地显示为一个阵列(矩阵)。在这个例子中,f的大小为600×600个元素,或360000个数字。很清楚,打印整个矩阵是很麻烦的,且传达的信息也不多。然而,在开发算法时,当图像的一部分被打印并作为数值进行分析时,这种表示
相当有用。图2.18(c)以图形方式传达了这一概念。
在这个例子中,f的大小为600×600个元素,或360000个数字。很清楚,打印整个矩阵是很麻烦的,且传达的信息也不多。然而,在开发算法时,当图像的一部分被打印并作为数值进行分析时,这种表示相当有用。图三以图形方式传达了这一概念。
在某些讨论中,使用传统的矩阵表示法来表示数字图像及其像素更为方便:
2.4.3空间和灰度分辨率
直观上看,空间分辨率是图像中可辨别的最小细节的度量。在数量上,空间分辨率可以有很多方法来说明,其中每单位距离线对数和每单位距离点数(像素数)是最通用的度量。
类似地,灰度分辨率是指在灰度级中可分辨的最小变化。灰度级数通常是2的整数次幂。最通用的数是8比特,在某些特殊的图像增强应用中,用16比特。
2.4.4图像内插
内插是在诸如放大、收缩、旋转和几何校正等任务中广泛应用的基本工具。它调整图像的大小(收缩和放大),这是基本的图像重取样方法。
最近邻内插法:这种方法把原图像中最近邻的灰度赋给了每个新位置。
双线性内插:这种方法更加实用,在该方法中,我们用4个最近邻去估计给定位置的灰度。令(x,y)为我们想要赋以灰度值的位置(把它想象为前面描述的网格点)的坐标,并令v(x,y)表示灰度值。公式如下:v(x,y)=ax + by + cxy + d
双三次内插:这种方法复杂度较高,它包括16个最近邻点。赋予点(x,y)的灰度值是使用下式得到的:
2.5像素间的一些基本关系
2.5.1相邻像素
位于坐标(x,y)处的像素p有4个水平和垂直的相邻像素,其坐标由下式给出:(x+1,y),(x-1,y),(x,y+1),(x,y-1),p的4个对角相邻像素的坐标如下:(x+1,y+1),(x+1,y-1),(x-1,y+1),(x-1,y-1)。
2.5.2邻接性,连通性,区域和边界
邻接性:令V是用于定义邻接性的灰度值集合。集合V可能是这256个值的任何一个子集。考虑三种类型的邻接:4邻接,V中数值的两个像素p和q是4邻接的。8邻接,V中数值的两个像素p和q是8邻接的。m邻接(混合邻接),如果(i)q在N₄(p)中,或(i)q在Np(p)中,且集合N₄(p)∩N₄(q)中没有来自V中数值的像素,则具有V中数值的两个像素p和q是m邻接的。
连通性:令S是图像中的一个像素子集。如果S的全部像素之间存在一个通路,则可以说两个像素p和q在S中是连通的。对于S中的任何像素p,S中连通到该像素的像素集称为S的连通分量。如果S仅有一个连通分量,则集合S称为连通集。
区域:令R是图像中的一个像素子集。如果R是连通集,则称R为一个区域。两个区域,如果它们联合形成一个连通集,则区域R,和R,称为邻接区域。不邻接的区域称为不连接区域。
边界:区域的边界分为内边界和外边界,外边界应用于背景边界,内边界是该区域中至少有一个背景邻点的像素集合。
2.5.3距离度量
度量距离方式与两点坐标距离公式相似。
2.6数字图像处理中所用的数学工具介绍
2.6.1阵列和矩阵操作
当我们谈到一幅图像的求幂时,意味着每个像素均进行求幂操作;当我们谈到一幅图像除以另一幅图像时,意味着在相应的像素对之间进行相除,等等。
2.6.2线性操作与非线性操作
图像处理方法的最重要分类之一是它是线性的还是非线性的。考虑一般的算子H,该算子对于给定的输入图像f(x,y),产生一幅输出图像g(x,y): H[f(x,y)]=g(x,y)。若:
则为线性算子,反之则为非线性算子。
2.6.3算术操作
算术就像我们平时所用到的加减乘除等算术算法在像素之间执行。
2.6.4集合和逻辑操作
集合为我们过往所学的基本集合。
在处理二值图像时,我们可以把图像想象为像素集合的前景(1值)与背景(0值)。在逻辑理论中,1代表真,0代表假。例如:背景像素中,我们可以将该操作想象为:把A中的所有像素转换为0(黑色),并把所有不在A中的元素转换为1(白色)。
2.6.5空间操作
空间操作直接在给定图像的像素上执行。我们把空间操作分为三大类:(1)单像素操作;(2)邻
域操作;(3)几何空间变换。
单像素操作:我们在数字图像中执行的最简单的操作就是以灰度为基础改变单个像素的值。这类处理可以用一个形如下式的变换函数T来描述:s=T(z)其中,z是原图像中像素的灰度,s是处理后的图像中相应像素的(映射)灰度。
邻域操作:令。代表图像f中以任意一点(x,y)为中心的一个邻域的坐标集。邻域处理在输出图像g中的相同坐标处生成一个相应的像素,该像素的值由输入图像中坐标在
。内的像素经指定操作决定,我们可以用公式的形式将这一操作描述为:
.
2.6.6向量与矩阵操作
我们看到RGB图像的每一个像素都有三个分量,这些分量可组织成一个列向量的形式:其中,z是红色图像中像素的亮度,其他两个元素是相应的绿色图像和蓝色图像中像素的亮度。这样,大小为M×N的RGB彩色图像就可用这一大小的三个分量图像来表示,或者总共用MN个三维向量来表示。
如: