上一节我们讨论了回归树,今天我们来讨论模型树,回归树的叶子节点是数值,模型树的叶子节点是线性函数,这里需要将上一节的函数稍加修改即可,上一节中的叶子节点生成函数、错误率函数需要进行稍加修改。
def linearSolve(dataSet):
m,n = shape(dataSet)
X = mat(ones((m,n))); Y = mat(ones((m,1)))
X[:,1:n] = dataSet[:,0:n-1]; Y = dataSet[:,-1]
xTx = X.T*X
if linalg.det(xTx) == 0.0:
raise NameError('This matrix is singular, cannot do inverse,\n\
try increasing the second value of ops')
ws = xTx.I * (X.T * Y)
return ws,X,Y
def modelLeaf(dataSet):
ws,X,Y = linearSolve(dataSet)
return ws
def modelErr(dataSet):
ws,X,Y = linearSolve(dataSet)
yHat = X * ws
return sum(power(Y - yHat,2))
上面的第一个函数是一个简单的线性回归计算函数,在生成叶子节点时被调用。下面两个函数就是上面所说的两个函数的替代方案。比较简单这里不再多讲。

本文探讨了模型树的概念及其与回归树的区别。重点介绍了如何使用线性函数作为叶子节点来预测连续值,并给出了具体的实现代码,包括线性求解、生成叶子节点及计算误差等函数。
6169

被折叠的 条评论
为什么被折叠?



