一、名词解释
样本(sample):所研究对象的一个个体。
样本集(sample set):若干样本的集合。
类或类别(class):在所有样本上定义的一个子集,处于同一类的样本在我们所关心的某种性质上是不可区分的,即具有相同的模式。
特征(features):指用于表征样本的观测。
已知样本(known samples):指事先知道类别标号的样本。
未知样本(unknown samples):指类别标号未知但特征已知的样本。
模式识别(pattern recognition):就是用计算的方法根据样本的特征将样本划分到一定的类别中去。
统计模式识别:用概率统计的观点和方法来解决模式识别问题。
贝叶斯决策(统计决策理论):是统计模式识别的基本方法和基础;是“最优分类器”:使平均错误率最小。
最小风险贝叶斯决策:最小错误率只考虑了错误,进一步可考虑不同错误所带来的损失(代价)。
Neyman-Pearson 决策规则:限定一类错误率为常数而使另一类错误率最小的决策。
参数估计(parametric estimation):已知概率密度函数的形式,只是其中几个参数未知,目标是根据样本估计这些参数的值。
非参数估计:在一些情况下我们无法实现判断数据的分布情况。
统计量(statistics):样本的某种函数,用来作为对某参数的估计 。
参数空间(parametric space):待估计参数的取值空间 。
估计量(estimation):![]()
贝叶斯估计:思路与贝叶斯决策类似,只是离散的决策状态变成了连续的估计。
最优超平面:一个超平面,如果它能够将训练样本没有错误地分开,并且两类训练样本中离超平面最近的样本与超平面之间的距离是最大的,则我们把这个超平面称作最优分类超平面(Optimal Seperating Hyperplane),简称最优超平面(Optimal Hyperplane)。两类样本中离分类面最近的样本到分类面的距离称作分类间隔(margin),最优超平面也称作最大间隔超平面。
特征形成(特征获取、提取):直接观测到的或经过初步运算的特征——原始特征 。
特征选择 :从m个特征中选择 m1个,m1<m(人为选择、算法选择) 。
特征提取(特征变换,特征压缩):将m个特征变为m2个新特征——二次特征。
特征的评价准则:特征选择与提取的任务是找出一组对分类最好的特征。
二、填空题
1、解决模式识别的方法可以归纳为基于知识的方法和基于数据的方法两大类。
2、一个模式识别问题往往包括以下五个阶段:问题的提出和定义、数据获取和预处理、特征提取和选择、分类器设计和性能评估、分类及结果解释。
3、模式识别应用举例:语音识别、说话人识别、字符与文字识别、复杂图像中特定目标的识别、根据地震勘探数据对地下储层性质的识别、利用基因表达数据进行癌症分类。
4、统计决策基本原理:根据各类特征的概率模型来估算后验概率,通过比较后验概率进行决策。
5、第一类错误率(Type-I error rate)
= 假阳性率 = 假阳性样本数 / 总阴性样本数
第二类错误率(Type-II error rate)
= 假阴性率 = 假阴性样本数 / 总阳性样本数
6、ROC曲线(ROC Curve)纵坐标:真阳性率(灵敏度);横坐标:假阳性率(1-特异度)。
7、估计概率密度的两种基本方法:参数方法 (parametric methods)和非参数方法 (nonparametric methods)。
8、贝叶斯估计基本思想:把待估计参数
看作具有先验

本文概述了模式识别的基本概念,包括样本、类、特征及其在统计决策中的应用,如贝叶斯决策、最小风险决策和Neyman-Pearson规则。讲解了参数估计和非参数估计的区别,以及统计量和估计量的概念。还详细介绍了分类器设计、特征提取选择的重要性,以及监督与非监督模式识别的区别和方法。重点讨论了Fisher准则、贝叶斯估计和固定增量法等核心算法。
最低0.47元/天 解锁文章
4485

被折叠的 条评论
为什么被折叠?



