24秋:模式识别:填空解答题

填空:

  1. 9 已知样本集合为:([3,4],1),([2,5],2),([8,10],3),([7,8],4),([6,9],5),请计算样本数据部分的均值______________________  3 2 8 7 6,/5 ()/5
  2. 10当样本数较小时,为什么最小化经验风险会带来过拟合问题?该如何解决?   
  3. 答案___________  模型过于复杂,采用正则化
    样本数较小时,经验风险不等于期望风险,最小化经验风险得到的模型其期望风险不一定最最小,同时,最小化经验风险时,在每个训练样本上的训练误差可能为零,得到的模型过于复杂,造成过拟合问题,然而当数据不在训练集合中时,预测误差较大,造成过拟合
  4. 11已知某模型对测试样本的输出结果分别为:  
  5. (x’1,2)->1  
  6. (x’2,1)->2  
  7. (x’3,1)->1  
  8. (x’4,2)->2  
  9. (x’5,1)->2  
  10. (x’6,1)->1  
  11. 请计算错误率______  3/6 = 50%
  12. 13请说出期望风险最小化、经验风险最小化、结构风险最小化的区别。  
  1. 答案解析  最小模型在总体上的预测,最小模型在训练集上期望的预测误差,期望风险和经验风险复杂度的总和。
    最小化模型在总体上的预测风险,最小化模型在训练样本上的预测风险值,最小化经验风险与模型结构复杂度
  1. 14:模型测试时,留出法是将样本的数据集随机划分为两部分,一部分组成训练样本,一部分组成测试样本,经过多次测试,取测试结果的平均值作为最终的测试结果。  
  2.     
  3. 15模型测试时,K折交叉验证的方法是什么?  
  4. 答案: K块互不相交大小相同数据集,取K+1K-1)作为训练样本 集,剩下最后一个作为测试 子集测试用训练的模型对测试数据进行预测 经过多次测试取平均误差最小的模型
    取测试的平均值作为最总测试结果
  5. 20在进行主成分分析前,需要进行数据的预处理,将数据标准化为均值为0,方差为1的向量,标准化的目的是?  
    不同特征数据在同一标准下进行度量。
  6. 21主成分分析的主要步骤是什么?  
  7. 预处理数据进行标准化(均值为0,方差为1),转换矩阵,获取计算矩阵每个特征属性平均值,每个特征减去平均值(零均均值化),获取特征值和特征向量,按公式求出协方差矩阵,取协方差矩阵特征平均值和特征值和特征向量,K块数据进行排序重复上面两部操作 按特征向量降序排成矩阵,取前K计算降维后的特征求出最优结果
  8. 23:请说出确定线性判别分析最佳投影方向的原则。   
  9. 类内间距距离最小,类间间距距离最大。
  10. 24:如果样本有两类,在线性判别分析中,类间距离是用什么衡量的? 
  11. 两类样本平均值的距离 
  12. 25如果样本有两类,在线性判别分析中,类内距离是用什么衡量的?  
  13. 每一样本元素所在类的均值距离求的和再求和
  14. 38请描述支持向量机中最优数据分界线的选择原则。  
  15. 分类的数据离边界两边最远; 尽可能原理两类数据点,既数据集的边界离分界线的距离最大
  16. 答案解析:最优分界线,要尽可能地远离两类数据点,即数据集的边缘点到分界线的距离d最大。  
  17. 39请写出以下代码的含义:  
  18. from sklearn.svm import SVC  
  19. svc = SVC(kernel='linear')  
  20. clf = svc.fit(trainx,trainy)  
  21. testy = clf.predict(testx)  
  22. 导入SVM,构建线性SVC支持向量机函数,对trainx,trainy进行训练支持向量机得到clf模型,用模型对testx进行预测分类,将预测分类的结果存入testy
  23. 48K均值聚类中,K值选取的方法有_________________  肘方法轮廓系数法
  24. 49请描述K均值聚类方法的步骤。  
    选取K数据集类族 质心
    对剩下的样本点极端到各个质心的距离,归入到互相间距最小的质心所在族,计算新的质心
    划分完毕,重新计算各个族的质心所在位置,地带样本点到质心的距离,对样本点重新划分
    重复上面步骤,直到划分情况区域稳定,保持不变,说明得到了最优解
    没类数据设置质心,对样本的每个数据到质心的距离进行求和,然后循环,最后找出最优解
  25. 25请复习每次直播课程上课讲解的范例代码。  
  26. 76: 在支持向量机中,划分样本集最优的超平面,应是具有         的超平面。最大间隔  
  27. 77: 在主成分分析中,降维后部分特征向量被舍弃了,舍弃后可以使           ,同时,能够起到            的效果。  采样数据密度增大,降噪
  28. 78在聚类中,用于计算两个样本之间的距离,通常采用的距离度量方式是_________ 欧式距离 
  29. 79在线性回归算法中,最优回归函数中的参数使得回归函数的输出f(x)与测试样本真实输出值之间的                    (均方差,最小)          
  30. 80已知训练数据集合(trainx,trainy),测试数据集(testx,testy),SVM算法代码如下  
  31. 1from sklearn.svm import SVC  
  32. 2svc = SVC(kernel='linear')  
  33. 3clf = svc.fit(trainx,trainy)  
  34. 4testny = clf.predict(testx)  
  35. SVM模型对测试数据的预测结果存储在变量            中。  testny
  36.   
  37. 81:在主成分分析中,为使样本点经过投影后尽可能分开,则应该使投影后的样本点          
  38.                     类内间距距离最小,类间间距最大
    样本点方差最大
  39. 82:聚类是将样本集划分为若干互不相交的子集,即样本簇,为使聚类结果比较好,应使聚类后               高且             低。  族内相似度,族间相似度
  40. 83:在支持向量机中,最优划分超平面所产生的分类结果是最              的,对未见示例的               最强。   ??????鲁邦,泛化能力
  41. 84:给定数据集,模型采用函数预测测试样本的y值,则该模型属于           模型,可采用                   算法得到该函数。  线性,线性回归
  42. 85: 已知训练数据集合(trainx,trainy),测试数据集(testx,testy),SVM算法代码如下  
  43. 1from sklearn.svm import SVC  
  44. 2svc = SVC(kernel='linear')  
  45. 3clf = svc.fit(trainx,trainy)  
  46. 4testny = clf.predict(testx)    
  47. 代码(3)完成的功能为                           
  48. 用支持向量机 trainxtrainy作为参数对进行训练,模型结果返回到clf  
  49. 采用训练数据度SVM模型进行训练  
  50.   
  51. 86:假设输入数据存储在x_data中,类别标签存储在y_data中,在线性回归分析代码中,代码如下:    
  52. 1from sklearn.linear_model import LinearRegression    
  53. 2lr = LinearRegression()    
  54. 3lr.fit(x_data, y_data)    
  55. 4y_pred = lr.predict(x_data)    
  56. 请回答代码(3)(4)的含义。    
  57. 答案    
  58.  (3 用线性支持向量机,对x_datay_data进行训练                   
  59.  (4 用线性支持向量机对x_data进行预测,得到的结果返回到y_pred里面  
  60. 3 采用训练数据x_data y_data训练线性回归模型lr.  
  61.  (4)对x_data数据采用训练好的模型进行预测,预测结果存储在y_pred中。  
  62. 37:给定两类数据集 ,其中m=1000 ,每类有500个样本,请设计10折交叉验证法,用于评估模型的测试误差。  
  63.                                        
  64. 38:已知某模型对两类问题(0为正例,1为反例)的测试样本输出结果如下表所示:  
  65. 测试样本    测试样本所属类别    模型输出类别  
  66.     0   1  
  67.     0   0  
  68.     1   0  
  69.     1   1  
  70.     1   1  
  71.     0   1  
  72. 请计算该模型查准率、查全率及F1,结果保留两位小数。 

  1. 已知数据集的定义为,表示包含m个样本的数据集,其中每个样本有d个属性,则每个样本是d维空间中的一个向量,其中是样本在第j个属性上的取值,d称为样本的维数。

有500个人脸图像样本(像素点128*68=8704)构成的人脸图像数据集,所有像素点的值构成图像样本的属性,请根据数据集的定义及右图给出该人脸图像数据集中以下变量的值。

(1)数据集的大小m

(2)样本的维数d

(3)(下标从0开始)

  1. m=500
  2. D=8704

(3)144

  1. 假设数据的协方差矩阵存在data中,采用主成分分析算法对数据进行降维,以下代码的含义是什么?

(1)eigValue, eigVec = np.linalg.eig(data)

(2)eigValInd = np.argsort(-eigValue)

(3)selectVec = eigVec[:, eigValInd[:3]]

(1)计算协方差矩阵的特征值和特征向量

(2)对特征值进行排序

(3)依据特征值的排序结果,取三个最大的特征值对应的特征向量存入selectVec中。

  1. 给定两类数据集,其中m=1000,,每类有500个样本,请设计留出法,用于评估模型的测试误差。

1)划分训练集与测试集

2)训练集为800个样本,其中随机抽取标签为-1的样本400个,标签为+1的样本400个,测试集为剩余样本。

3)选定模型,采用训练集进行训练,测试集进行测试,记录测试误差。

4)重复1-3步10次,取平均测试误差为最终测试误差。

  1. 已知某模型对两类问题的测试样本输出结果如下表所示:

请计算该模型的错误率。

测试样本

测试样本所属类别

模型输出类别

2

1

1

2

1

1

2

2

1

2

1

1

答案:错误率=3/6= 50%

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值