import numpy as np
from bs4 import BeautifulSoup
import random
def scrapePage(retX, retY, inFile, yr, numPce, origPrc):
with open(inFile, encoding='utf-8') as f:
html = f.read()
soup = BeautifulSoup(html, 'html.parser')
i = 1
currentRow = soup.find_all('table', r=str(i))
while len(currentRow) != 0:
title = currentRow[0].find_all('a')[1].text.lower()
newFlag = 1.0 if ('new' in title) or ('nisb' in title) else 0.0
soldUnicde = currentRow[0].find_all('td')[3].find_all('span')
if len(soldUnicde) == 0:
print(f"商品 #{i} 没有出售")
else:
soldPrice = currentRow[0].find_all('td')[4].text
soldPrice = soldPrice.replace('$','').replace(',','').replace('Free shipping','')
sellingPrice = float(soldPrice)
if sellingPrice > origPrc * 0.5:
retX.append([yr, numPce, newFlag, origPrc])
retY.append(sellingPrice)
i += 1
currentRow = soup.find_all('table', r=str(i))
def ridgeRegres(xMat, yMat, lam=0.2):
xTx = xMat.T * xMat
denom = xTx + np.eye(xMat.shape[1]) * lam
if np.linalg.det(denom) == 0.0:
print("矩阵为奇异矩阵,不能转置")
return
return denom.I * (xMat.T * yMat)
def setDataCollect(retX, retY):
scrapePage(retX, retY, './lego8288.html', 2006, 800, 49.99)
scrapePage(retX, retY, './lego10030.html', 2002, 3096, 269.99)
scrapePage(retX, retY, './lego10179.html', 2007, 5195, 499.99)
scrapePage(retX, retY, './lego10181.html', 2007, 3428, 199.99)
scrapePage(retX, retY, './lego10189.html', 2008, 5922, 299.99)
scrapePage(retX, retY, './lego10196.html', 2009, 3263, 249.99)
def regularize(xMat, yMat):
inxMat = xMat.copy()
inyMat = yMat - np.mean(yMat, 0)
inMeans = np.mean(inxMat, 0)
inVar = np.var(inxMat, 0)
return (inxMat - inMeans)/inVar, inyMat
def rssError(yArr, yHatArr):
return ((yArr - yHatArr)**2).sum()
def standRegres(xArr, yArr):
xMat = np.mat(xArr)
yMat = np.mat(yArr).T
xTx = xMat.T * xMat
if np.linalg.det(xTx) == 0.0:
print("矩阵为奇异矩阵,不能转置")
return
return xTx.I * (xMat.T * yMat)
def crossValidation(xArr, yArr, numVal=10):
m = len(yArr)
indexList = list(range(m))
errorMat = np.zeros((numVal, 30))
for i in range(numVal):
trainX, trainY, testX, testY = [], [], [], []
random.shuffle(indexList)
for j in range(m):
if j < m*0.9:
trainX.append(xArr[indexList[j]])
trainY.append(yArr[indexList[j]])
else:
testX.append(xArr[indexList[j]])
testY.append(yArr[indexList[j]])
wMat = ridgeTest(trainX, trainY)
for k in range(30):
matTestX = np.mat(testX)
matTrainX = np.mat(trainX)
meanTrain = np.mean(matTrainX, 0)
varTrain = np.var(matTrainX, 0)
matTestX = (matTestX - meanTrain) / varTrain
yEst = matTestX * np.mat(wMat[k]).T + np.mean(trainY)
errorMat[i,k] = rssError(yEst.T.A, np.array(testY))
# 关键补充代码
meanErrors = np.mean(errorMat, axis=0)
bestIndex = np.argmin(meanErrors)
bestWeights = wMat[bestIndex]
# 输出最终模型参数
xMat = np.mat(xArr)
yMat = np.mat(yArr).T
meanX = np.mean(xMat, 0)
varX = np.var(xMat, 0)
unReg = bestWeights / varX
print('最佳模型参数:')
print('%.2f%+.2f*年份%+.2f*部件数%+.2f*全新%+.2f*原价' % (
(-1 * np.sum(np.multiply(meanX, unReg)) + np.mean(yMat))[0,0],
unReg[0,0], unReg[0,1], unReg[0,2], unReg[0,3]
))
return bestWeights
def ridgeTest(xArr, yArr):
xMat = np.mat(xArr)
yMat = np.mat(yArr).T
yMean = np.mean(yMat, 0)
yMat = yMat - yMean
xMeans = np.mean(xMat, 0)
xVar = np.var(xMat, 0)
xMat = (xMat - xMeans) / xVar
numTestPts = 30
wMat = np.zeros((numTestPts, xMat.shape[1]))
for i in range(numTestPts):
ws = ridgeRegres(xMat, yMat, np.exp(i-10))
wMat[i,:] = ws.T
return wMat
if __name__ == '__main__':
lgX, lgY = [], []
setDataCollect(lgX, lgY)
crossValidation(lgX, lgY)任务描述
本关任务:编写一个预测乐高玩具套装价格的程序。
相关知识
为了完成本关任务,你需要掌握:1.线性回归,2.局部加权线性回归,3.缩减系数法。
线性回归
比如,假如你想要预测一辆汽车的功率大小,可能会这么计算:
HorsePower = 0.0015 * annualSalary - o.99* hoursListeningToPublic Radio
这就是所谓的回归方程(regression equation),其中的0.0015和-0.99称作回归系数(regression weights) ,求这些回归系数的过程就是回归。一旦有了这些回归系数,再给定输入,做预测就非常容易了。具体的做法是用回归系数乘以输人值,再将结果全部加在一起,就得到了预测值。
局部加权线性回归
在局部加权算法中 ,我们给待预测点附近的每个点赋予一定的权重;然后与前面的类似,在这个子集上基于最小均方差来进行普通的回归。与kNN一样,这种算法每次预测均需要事先选取出对应的数据子集。
该算法解出回归系数w的形式如下:
其中w是一个矩阵,用来给每个数据点赋予权重。
缩减系数法
缩减系数法包括岭回归和向前线性回归,其中:
(1)
岭回归最先用来处理特征数多于样本数的情况,现在也用于在估计中加人偏差,从而得到更好的估计。这里通过引入1来限制了所有《之和,通过引人该惩罚项,能够减少不重要的参数,这个技术在统计学中也叫做缩减(shrinkage )。
(2)
前向逐步回归算法可以得到与lasso差不多的效果,但更加简单。它属于一种贪心算法,即每一步都尽可能减少误差。一开始,所有的权重都设为1,然后每一步所做的决策是对某个权重增加或减少一个很小的值。
该算法的伪代码如下所示:
数据标准化,使其分布满足0均值和单位方差
在每轮迭代过程中:
设置当前最小误差lowestError为正无穷
对每个特征:
增大或缩小:
改变一个系数得到一个新的w
计算新w下的误差
如果误差Error小于当前最小误差lowestError:设置Wbest等于当前的w
将w设置为新的Wbest
编程要求
根据提示,在右侧编辑器补充代码,预测乐高玩具套装价格。