填空:
- 9: 已知样本集合为:([3,4],1),([2,5],2),([8,10],3),([7,8],4),([6,9],5),请计算样本数据部分的均值______________________。 (3 2 8 7 6),/5 ()/5
- 10:当样本数较小时,为什么最小化经验风险会带来过拟合问题?该如何解决?
- 答案:___________ 模型过于复杂,采用正则化
样本数较小时,经验风险不等于期望风险,最小化经验风险得到的模型其期望风险不一定最最小,同时,最小化经验风险时,在每个训练样本上的训练误差可能为零,得到的模型过于复杂,造成过拟合问题,然而当数据不在训练集合中时,预测误差较大,造成过拟合 - 11:已知某模型对测试样本的输出结果分别为:
- (x’1,2)->1
- (x’2,1)->2
- (x’3,1)->1
- (x’4,2)->2
- (x’5,1)->2
- (x’6,1)->1
- 请计算错误率______ 3/6 = 50%
- 13:请说出期望风险最小化、经验风险最小化、结构风险最小化的区别。
- 答案解析: 最小模型在总体上的预测,最小模型在训练集上期望的预测误差,期望风险和经验风险复杂度的总和。
最小化模型在总体上的预测风险,最小化模型在训练样本上的预测风险值,最小化经验风险与模型结构复杂度的和
- 14:模型测试时,留出法是将样本的数据集随机划分为两部分,一部分组成训练样本,一部分组成测试样本,经过多次测试,取测试结果的平均值作为最终的测试结果。
- 对 错
- 15:模型测试时,K折交叉验证的方法是什么?
- 答案: 取K块互不相交大小相同数据集,取
K+1(K-1)作为训练样本最后一个作为测试子集测试,用训练的模型对测试数据进行预测经过多次测试,取平均误差最小的模型
取测试的平均值作为最总测试结果 - 20:在进行主成分分析前,需要进行数据的预处理,将数据标准化为均值为0,方差为1的向量,标准化的目的是?
不同特征数据在同一标准下进行度量。 - 21:主成分分析的主要步骤是什么?
- 预处理数据进行标准化(均值为0,方差为1),转换矩阵,获取计算矩阵每个特征属性平均值,每个特征减去平均值(零均均值化),获取特征值和特征向量,按公式求出协方差矩阵,取协方差矩阵
特征平均值和特征值和特征向量,取K块数据进行排序重复上面两部操作按特征向量降序排成矩阵,取前K行,计算降维后的特征求出最优结果 - 23:请说出确定线性判别分析最佳投影方向的原则。
- 类内
间距距离最小,类间间距距离最大。 - 24:如果样本有两类,在线性判别分析中,类间距离是用什么衡量的?
- 两类样本平均值的距离和
- 25:如果样本有两类,在线性判别分析中,类内距离是用什么衡量的?
- 每一样本
元素到所在类的均值距离求的和再求和 - 38:请描述支持向量机中最优数据分界线的选择原则。
- 分类的数据离边界两边最远; 尽可能原理两类数据点,既数据集的边界离分界线的距离最大
- 答案解析:最优分界线,要尽可能地远离两类数据点,即数据集的边缘点到分界线的距离d最大。
- 39:请写出以下代码的含义:
- from sklearn.svm import SVC
- svc = SVC(kernel='linear')
- clf = svc.fit(trainx,trainy)
- testy = clf.predict(testx)
- 导入SVM库,构建线性SVC支持向量机函数,对trainx,trainy进行训练支持向量机得到clf模型,用模型对testx进行预测分类,将预测分类的结果存入testy中
- 48:K均值聚类中,K值选取的方法有________和_________。 肘方法,轮廓系数法
- 49:请描述K均值聚类方法的步骤。
分选取K个类数据集类族 的 质心,
对剩下的样本点极端到各个质心的距离,归入到互相间距最小的质心所在族,计算新的质心
划分完毕,重新计算各个族的质心所在位置,地带样本点到质心的距离,对样本点重新划分
重复上面步骤,直到划分情况区域稳定,保持不变,说明得到了最优解没类数据设置质心,对样本的每个数据到质心的距离进行求和,然后循环,最后找出最优解 - 25. 请复习每次直播课程上课讲解的范例代码。
- 76: 在支持向量机中,划分样本集最优的超平面,应是具有 的超平面。最大间隔
- 77: 在主成分分析中,降维后部分特征向量被舍弃了,舍弃后可以使 ,同时,能够起到 的效果。 采样数据密度增大,降噪
- 78. 在聚类中,用于计算两个样本之间的距离,通常采用的距离度量方式是_________。 欧式距离
- 79. 在线性回归算法中,最优回归函数中的参数使得回归函数的输出f(x)与测试样本真实输出值之间的 最 (均方误差,最小) 。
- 80. 已知训练数据集合(trainx,trainy),测试数据集(testx,testy),SVM算法代码如下
- (1)from sklearn.svm import SVC
- (2)svc = SVC(kernel='linear')
- (3)clf = svc.fit(trainx,trainy)
- (4)testny = clf.predict(testx)
- SVM模型对测试数据的预测结果存储在变量 中。 testny
- 81:在主成分分析中,为使样本点经过投影后尽可能分开,则应该使投影后的样本点
- 。
类内间距距离最小,类间间距最大
样本点方差最大 - 82:聚类是将样本集划分为若干互不相交的子集,即样本簇,为使聚类结果比较好,应使聚类后 高且 低。 族内相似度,族间相似度
- 83:在支持向量机中,最优划分超平面所产生的分类结果是最 的,对未见示例的 最强。 ??????鲁邦,泛化能力
- 84:给定数据集,模型采用函数预测测试样本的y值,则该模型属于 模型,可采用 算法得到该函数。 线性,线性回归
- 85: 已知训练数据集合(trainx,trainy),测试数据集(testx,testy),SVM算法代码如下
- (1)from sklearn.svm import SVC
- (2)svc = SVC(kernel='linear')
- (3)clf = svc.fit(trainx,trainy)
- (4)testny = clf.predict(testx)
- 代码(3)完成的功能为 。
- 用支持向量机 把trainx,trainy作为参数对进行训练,模型结果返回到clf中
- 采用训练数据度SVM模型进行训练
- 86:假设输入数据存储在x_data中,类别标签存储在y_data中,在线性回归分析代码中,代码如下:
- (1)from sklearn.linear_model import LinearRegression
- (2)lr = LinearRegression()
- (3)lr.fit(x_data, y_data)
- (4)y_pred = lr.predict(x_data)
- 请回答代码(3)(4)的含义。
- 答案
- (3) 用线性支持向量机,对x_data和y_data进行训练
- (4) 用线性支持向量机对x_data进行预测,得到的结果返回到y_pred里面
- (3) 采用训练数据x_data和 y_data训练线性回归模型lr.
- (4)对x_data数据采用训练好的模型进行预测,预测结果存储在y_pred中。
- 37:给定两类数据集 ,其中m=1000, ,每类有500个样本,请设计10折交叉验证法,用于评估模型的测试误差。
- , , ,
- 38:已知某模型对两类问题(0为正例,1为反例)的测试样本输出结果如下表所示:
- 测试样本 测试样本所属类别 模型输出类别
- 0 1
- 0 0
- 1 0
- 1 1
- 1 1
- 0 1
- 请计算该模型查准率、查全率及F1,结果保留两位小数。
- 已知数据集的定义为
,表示包含m个样本的数据集,其中每个样本有d个属性,则每个样本
是d维空间中的一个向量,其中
是样本
在第j个属性上的取值,d称为样本
的维数。
有500个人脸图像样本(像素点128*68=8704)构成的人脸图像数据集,所有像素点的值构成图像样本的属性,请根据数据集的定义及右图给出该人脸图像数据集中以下变量的值。
(1)数据集的大小m
(2)样本的维数d
(3)
(下标从0开始)
- m=500
- D=8704
(3)144
- 假设数据的协方差矩阵存在data中,采用主成分分析算法对数据进行降维,以下代码的含义是什么?
(1)eigValue, eigVec = np.linalg.eig(data)
(2)eigValInd = np.argsort(-eigValue)
(3)selectVec = eigVec[:, eigValInd[:3]]
(1)计算协方差矩阵的特征值和特征向量
(2)对特征值进行排序
(3)依据特征值的排序结果,取三个最大的特征值对应的特征向量存入selectVec中。
- 给定两类数据集
,其中m=1000,
,每类有500个样本,请设计留出法,用于评估模型的测试误差。
1)划分训练集与测试集
2)训练集为800个样本,其中随机抽取标签为-1的样本400个,标签为+1的样本400个,测试集为剩余样本。
3)选定模型,采用训练集进行训练,测试集进行测试,记录测试误差。
4)重复1-3步10次,取平均测试误差为最终测试误差。
- 已知某模型对两类问题的测试样本输出结果如下表所示:
请计算该模型的错误率。
测试样本 | 测试样本所属类别 | 模型输出类别 |
| 2 | 1 |
| 1 | 2 |
| 1 | 1 |
| 2 | 2 |
| 1 | 2 |
| 1 | 1 |
答案:错误率=3/6= 50%