使用Spark构建回归与聚类模型
1. 构建回归模型
在使用Spark构建回归模型时,我们将重点关注线性模型和决策树模型,并探讨不同参数设置对模型性能的影响。
1.1 截距项的影响
通过结果和绘图可以发现,添加截距项会使均方根对数误差(RMSLE)略有增加。具体数据如下:
| 是否添加截距项 | RMSLE |
| ---- | ---- |
| False | 1.4900275345312988 |
| True | 1.506469812020645 |
1.2 决策树参数设置的影响
决策树主要有两个参数:最大树深度和最大分箱数。我们将分别评估这两个参数对模型性能的影响。
首先,创建一个评估决策树模型的函数:
def evaluate_dt(train, test, maxDepth, maxBins):
model = DecisionTree.trainRegressor(train, {},
impurity='variance', maxDepth=maxDepth, maxBins=maxBins)
preds = model.predict(test.map(lambda p: p.features))
actual = test.map(lambda p: p.label)
tp = actual.zip(preds)
rmsle = np.sqrt(tp.map(lambda (t, p): squared_log_er
超级会员免费看
订阅专栏 解锁全文
3837

被折叠的 条评论
为什么被折叠?



