1、模式识别系统的基本构成单元,并对各单元简要解释
? 数据获取:用计算机可以运算的符号来表示所研究的对象
– 二维图像:文字、指纹、地图、照片等
– 一维波形:脑电图、心电图、季节震动波形等
– 物理参量和逻辑值:体温、化验数据、参量正常与否的描述
? 预处理单元:去噪声,提取有用信息,并对输入测量仪器或其它因素所造成的退化现象进行复原
? 特征提取和选择:对原始数据进行变换,得到最能反映分类本质的特征
– 测量空间:原始数据组成的空间 – 特征空间:分类识别赖以进行的空间
– 模式表示:维数较高的测量空间->维数较低的特征空间
? 分类决策:在特征空间中用模式识别方法把被识别对象归为某一类别
– 基本做法:在样本训练集基础上确定某个判决规则,使得按这种规
则对被识别对象进行分类所造成的错误识别率最小或引起的损失最小
2、写出K-均值聚类算法的基本步骤, 例子见布置的作业题.
算法:
第一步:选K 个初始聚类中心,z 1(1),z 2(1),…,z K (1),其中括号内的序号
为寻找聚类中心的迭代运算的次序号。聚类中心的向量值可任意设定,例如可选开始的K 个模式样本的向量值作为初始聚类中心。
第二步:逐个将需分类的模式样本{x}按最小距离准则分配给K 个聚类中心
中的某一个z j (1)。
假设i=j 时,}K ,2,1i ,)k (z x m i n {
)k (D i j =-=,则)k (S x j ∈,其中k 为迭代运算的次序号,第一次迭代k=1,S j 表示第j 个聚类,其聚类中心为z j 。
第三步:计算各个聚类中心的新的向量值,z j (k+1),j=1,2,…,K
求各聚类域中所包含样本的均值向量:
数据获取
特征提取和选
择
预处理
分类决策
分类器设计
()
1
(1),1,2,,j j x S k j
z k x j K
N ∈+=
=∑