CrossValidation

本文介绍了交叉验证的基本概念及其在模型训练中的应用。通过详细解释K折交叉验证的过程,阐述了如何选择最优的主成分数以获得稳定可靠的模型。此外,还提到了常见的10折交叉验证方法。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1.1 概念

交叉验证(Cross-validation)主要用于模型训练或建模应用中,如分类预测、PCR、PLS回归建模等。在给定的样本空间中,拿出大部分样本作为训练集来训练模型,剩余的小部分样本使用刚建立的模型进行预测,并求这小部分样本的预测误差或者预测精度,同时记录它们的加和平均值。这个过程迭代K次,即K折交叉。其中,把每个样本的预测误差平方加和,称为PRESS(predicted Error Sum of Squares)。

1.2 目的

用交叉验证的目的是为了得到可靠稳定的模型。在分类,建立PC 或PLS模型时,一个很重要的因素是取多少个主成分的问题。用cross validation校验每个主成分下的PRESS值,选择PRESS值小的主成分数。或PRESS值不再变小时的主成分数。

常用的精度测试方法主要是交叉验证,例如10折交叉验证(10-fold cross validation),将数据集分成十份,轮流将其中9份做训练1份做验证,10次的结果的均值作为对算法精度的估计,一般还需要进行多次10折交叉验证求均值,例如:10次10折交叉验证,以求更精确一点。
交叉验证有时也称为交叉比对,如:10折交叉比对

import numpy as np from bs4 import BeautifulSoup import random def scrapePage(retX, retY, inFile, yr, numPce, origPrc): with open(inFile, encoding='utf-8') as f: html = f.read() soup = BeautifulSoup(html, 'html.parser') i = 1 currentRow = soup.find_all('table', r=str(i)) while len(currentRow) != 0: title = currentRow[0].find_all('a')[1].text.lower() newFlag = 1.0 if ('new' in title) or ('nisb' in title) else 0.0 soldUnicde = currentRow[0].find_all('td')[3].find_all('span') if len(soldUnicde) == 0: print(f"商品 #{i} 没有出售") else: soldPrice = currentRow[0].find_all('td')[4].text soldPrice = soldPrice.replace('$','').replace(',','').replace('Free shipping','') sellingPrice = float(soldPrice) if sellingPrice > origPrc * 0.5: retX.append([yr, numPce, newFlag, origPrc]) retY.append(sellingPrice) i += 1 currentRow = soup.find_all('table', r=str(i)) def ridgeRegres(xMat, yMat, lam=0.2): xTx = xMat.T * xMat denom = xTx + np.eye(xMat.shape[1]) * lam if np.linalg.det(denom) == 0.0: print("矩阵为奇异矩阵,不能转置") return return denom.I * (xMat.T * yMat) def setDataCollect(retX, retY): scrapePage(retX, retY, './lego8288.html', 2006, 800, 49.99) scrapePage(retX, retY, './lego10030.html', 2002, 3096, 269.99) scrapePage(retX, retY, './lego10179.html', 2007, 5195, 499.99) scrapePage(retX, retY, './lego10181.html', 2007, 3428, 199.99) scrapePage(retX, retY, './lego10189.html', 2008, 5922, 299.99) scrapePage(retX, retY, './lego10196.html', 2009, 3263, 249.99) def regularize(xMat, yMat): inxMat = xMat.copy() inyMat = yMat - np.mean(yMat, 0) inMeans = np.mean(inxMat, 0) inVar = np.var(inxMat, 0) return (inxMat - inMeans)/inVar, inyMat def rssError(yArr, yHatArr): return ((yArr - yHatArr)**2).sum() def standRegres(xArr, yArr): xMat = np.mat(xArr) yMat = np.mat(yArr).T xTx = xMat.T * xMat if np.linalg.det(xTx) == 0.0: print("矩阵为奇异矩阵,不能转置") return return xTx.I * (xMat.T * yMat) def crossValidation(xArr, yArr, numVal=10): m = len(yArr) indexList = list(range(m)) errorMat = np.zeros((numVal, 30)) for i in range(numVal): trainX, trainY, testX, testY = [], [], [], [] random.shuffle(indexList) for j in range(m): if j < m*0.9: trainX.append(xArr[indexList[j]]) trainY.append(yArr[indexList[j]]) else: testX.append(xArr[indexList[j]]) testY.append(yArr[indexList[j]]) wMat = ridgeTest(trainX, trainY) for k in range(30): matTestX = np.mat(testX) matTrainX = np.mat(trainX) meanTrain = np.mean(matTrainX, 0) varTrain = np.var(matTrainX, 0) matTestX = (matTestX - meanTrain) / varTrain yEst = matTestX * np.mat(wMat[k]).T + np.mean(trainY) errorMat[i,k] = rssError(yEst.T.A, np.array(testY)) # 关键补充代码 meanErrors = np.mean(errorMat, axis=0) bestIndex = np.argmin(meanErrors) bestWeights = wMat[bestIndex] # 输出最终模型参数 xMat = np.mat(xArr) yMat = np.mat(yArr).T meanX = np.mean(xMat, 0) varX = np.var(xMat, 0) unReg = bestWeights / varX print('最佳模型参数:') print('%.2f%+.2f*年份%+.2f*部件数%+.2f*全新%+.2f*原价' % ( (-1 * np.sum(np.multiply(meanX, unReg)) + np.mean(yMat))[0,0], unReg[0,0], unReg[0,1], unReg[0,2], unReg[0,3] )) return bestWeights def ridgeTest(xArr, yArr): xMat = np.mat(xArr) yMat = np.mat(yArr).T yMean = np.mean(yMat, 0) yMat = yMat - yMean xMeans = np.mean(xMat, 0) xVar = np.var(xMat, 0) xMat = (xMat - xMeans) / xVar numTestPts = 30 wMat = np.zeros((numTestPts, xMat.shape[1])) for i in range(numTestPts): ws = ridgeRegres(xMat, yMat, np.exp(i-10)) wMat[i,:] = ws.T return wMat if __name__ == '__main__': lgX, lgY = [], [] setDataCollect(lgX, lgY) crossValidation(lgX, lgY)任务描述 本关任务:编写一个预测乐高玩具套装价格的程序。 相关知识 为了完成本关任务,你需要掌握:1.线性回归,2.局部加权线性回归,3.缩减系数法。 线性回归 比如,假如你想要预测一辆汽车的功率大小,可能会这么计算: HorsePower = 0.0015 * annualSalary - o.99* hoursListeningToPublic Radio 这就是所谓的回归方程(regression equation),其中的0.0015和-0.99称作回归系数(regression weights) ,求这些回归系数的过程就是回归。一旦有了这些回归系数,再给定输入,做预测就非常容易了。具体的做法是用回归系数乘以输人值,再将结果全部加在一起,就得到了预测值。 局部加权线性回归 在局部加权算法中 ,我们给待预测点附近的每个点赋予一定的权重;然后与前面的类似,在这个子集上基于最小均方差来进行普通的回归。与kNN一样,这种算法每次预测均需要事先选取出对应的数据子集。 该算法解出回归系数w的形式如下: 其中w是一个矩阵,用来给每个数据点赋予权重。 缩减系数法 缩减系数法包括岭回归和向前线性回归,其中: (1) 岭回归最先用来处理特征数多于样本数的情况,现在也用于在估计中加人偏差,从而得到更好的估计。这里通过引入1来限制了所有《之和,通过引人该惩罚项,能够减少不重要的参数,这个技术在统计学中也叫做缩减(shrinkage )。 (2) 前向逐步回归算法可以得到与lasso差不多的效果,但更加简单。它属于一种贪心算法,即每一步都尽可能减少误差。一开始,所有的权重都设为1,然后每一步所做的决策是对某个权重增加或减少一个很小的值。 该算法的伪代码如下所示: 数据标准化,使其分布满足0均值和单位方差 在每轮迭代过程中: 设置当前最小误差lowestError为正无穷 对每个特征: 增大或缩小: 改变一个系数得到一个新的w 计算新w下的误差 如果误差Error小于当前最小误差lowestError:设置Wbest等于当前的w 将w设置为新的Wbest 编程要求 根据提示,在右侧编辑器补充代码,预测乐高玩具套装价格。
最新发布
05-13
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

奇文王语

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值