前言
为了将模式划分为不同的类别,需要定义一种相似测度来度量同一类样本之间的相似性和不同样本之间的差异性。现有的模型相似度大概可以分为三类:距离测度、相似测度和匹配测度。
距离相似测度
这种测度是基于两个矢量矢端的距离距离作为测度基础,因此距离测度值是两矢量各相应分量之差的函数。
1. 欧氏距离
对于两个样本x=(x1,x2,⋅⋅⋅,xn)Tx=\left( x_1,x_2,···,x_n \right) ^Tx=(x1,x2,⋅⋅⋅,xn)T,y=(y1,y2,⋅⋅⋅,yn)Ty=\left( y_1,y_2,···,y_n \right) ^Ty=(y1,y2,⋅⋅⋅,yn)T 其欧氏距离定义为:d(x,y)=∣∣x−y∣∣=[∑i=1n(xi−yi)2]12
d\left( x,y \right) =||x-y||=\left[ \sum_{i=1}^n{\left( x_i-y_i \right) ^2} \right] ^{\frac{1}{2}}
d(x,y)=∣∣x−y∣∣=[i=1∑n(xi−yi)2]21
欧式距离是最常用的相似性测度。由欧氏距离确定的样本具有平移和旋转不变性。
2. 马氏距离
设有nnn维矢量xix_ixi和xjx_jxj是矢量集(x1,x2,⋅⋅⋅,xn)(x_1,x_2,···,x_n)(x1,x2,⋅⋅⋅,xn)中的两个矢量,它们的马氏距离定义为
d2(xi,xj)=(xi=xj)TV−1(xi−xj)
d^2\left( x_i,x_j \right) =\left( x_i=x_j \right) ^TV^{-1}\left( x_i-x_j \right)
d2(xi,xj)=(xi=xj)TV−1(xi−xj)
式中V=1m−1∑i=1m(xi−xˉ)(xi−xˉ)TV=\frac{1}{m-1}\sum_{i=1}^m{\left( x_i-\bar{x} \right) \left( x_i-\bar{x} \right) ^T}V=m−11i=1∑m(xi−xˉ)(xi−xˉ)T
xˉ=1m∑i=1mxi\bar{x}=\frac{1}{m}\sum_{i=1}^m{x_i}xˉ=m1i=1∑mxi
马氏距离对一切非奇异线性变换都是不变的,也就是说马氏距离具有平移不变性;另外由于VVV的含义是这个适量记得样本协方差阵,所以马氏距离对特性的相关性也作了处理。
3.明氏距离
明氏距离的公式如下:d(x,y)=[∑i=1n(xi−yi)m]1m
d\left( x,y \right) =\left[ \sum_{i=1}^n{\left( x_i-y_i \right)}^m \right] ^{\frac{1}{m}}
d(x,y)=[i=1∑n(xi−yi)m]m1
由上式看出,当m=1,为绝对距离;当m=2时,为欧氏距离。
相似测度
两个矢量的方向是否相近作为度量的基础,矢量长度并不重要,但其中有的度量依然考虑两矢量端点距离,只是再将其转化为具有相似测度的数值属性。
角度相似性函数
用向量夹角的余弦来度量。在模式中具有扇形分布时,经常采用这种测度:s(x,y)=cos(x,y)=xTy∣∣x∣∣⋅∣∣y∣∣
s\left( \boldsymbol{x,y} \right) =\cos \left( \boldsymbol{x,y} \right) =\frac{\boldsymbol{x}^T\boldsymbol{y}}{||x||·||y||}
s(x,y)=cos(x,y)=∣∣x∣∣⋅∣∣y∣∣xTy其中s(x,y)s\left( \boldsymbol{x,y} \right)s(x,y)是向量xxx和向量yyy之间夹角的余弦。
这种相似测度函数对于坐标系的旋转和尺度缩放是不变的,但对于一般的线性变换和坐标系的平移不具有不变性。
若cos(x,y)=1cos(x,y)=1cos(x,y)=1即xxx和yyy夹角为0°则相似;若cos(x,y)=0cos(x,y)=0cos(x,y)=0即xxx和yyy夹角为90°则不相似。
相关系数
相关系数测度实际上是数据中心化后的矢量夹角余弦,定义为:
r(x,y)=(x−xˉ)(y−yˉ)[(x−xˉ)T(x−xˉ)(y−yˉ)T(y−yˉ)]12
r\left( x,y \right) =\frac{\left( x-\bar{x} \right) \left( y-\bar{y} \right)}{\left[ \left( x-\bar{x} \right) ^T\left( x-\bar{x} \right) \left( y-\bar{y} \right) ^T\left( y-\bar{y} \right) \right] ^{\frac{1}{2}}}
r(x,y)=[(x−xˉ)T(x−xˉ)(y−yˉ)T(y−yˉ)]21(x−xˉ)(y−yˉ)
式子中,xxx和yyy代表两个数据集的样本,xˉ\bar{x}xˉ和yˉ\bar{y}yˉ分别表示两个数据集的平均矢量。这种相似测度函数对于坐标系的平移、旋转和尺度缩放都是不变的。
匹配测度
匹配测度经常用于医学和生物学中的分类。在进行此类测度之前,需要先将图像特征进行二值特征处理。所谓的二值特征处理就是若对象有此特征,则相应分量定义为1,若对象无此特征,则相应分量定义为0,即特征只有两种状态。对于二值nnn维特征矢量可定义如下相似度:
Tonimoto测度
TonimotoTonimotoTonimoto测度也称为TonimotoTonimotoTonimoto距离,TonimotoTonimotoTonimoto测度可用于实向量测量,也可用于离散值测量,定义为:
s(x,y)=(xTy)(∣∣x∣∣2+∣∣y∣∣2−xTy)
s\left( x,y \right) =\frac{\left( x^Ty \right)}{\left( ||x||^2+||y||^2-x^Ty \right)}
s(x,y)=(∣∣x∣∣2+∣∣y∣∣2−xTy)(xTy)
在这种相似测度函数中,当向量xxx和yyy越相似,s(x,y)s(x,y)s(x,y)值越大。
简单匹配系数
m(x,y)=(∑ixiyi+∑i(1−xi)(1−yi))n
m\left( x,y \right) =\frac{\left( \sum_i{x_iy_i}+\sum_i{\left( 1-x_i \right) \left( 1-y_i \right)} \right)}{n}
m(x,y)=n(∑ixiyi+∑i(1−xi)(1−yi))
式中,nnn为要考察的特征数目。
参考文献
宋丽梅.模式识别 [M].机械工业出版社