机器学习训练营——机器学习爱好者的自由交流空间(入群联系qq:2279055353)
回归
使用类DecisionTreeRegressor
, 决策树可以应用于回归问题。fit方法取输入数组X, y, 这里的y取浮点值而不是分类的整值。
from sklearn import tree
X = [[0, 0], [2, 2]]
y = [0.5, 2.5]
clf = tree.DecisionTreeRegressor()
clf = clf.fit(X, y)
clf.predict([[1, 1]])
复杂度
通常,构建一棵平衡的二值树的运行时间代价是 O(nsamplesnfeatureslognsamples)O(n_{samples}n_{features}\log n_{samples})O(nsamplesnfeatureslognsamples), 查询时间是 O(lognsamples)O(\log n_{samples})O(lognsamples). 尽管建树算法试图产生平衡的树,但结果树并不总是平衡的。假设子树维持大致的平衡,在每一个节点的代价包括搜遍 O(nfeatures)O(n_{features})O(nfeatures) 到找到提供最大熵减少量的特征。在每个节点的代价 O(nfeaturesnsampleslognsamples)O(n_{features}n_{samples}\log n_{samples})O(nfeaturesnsampleslognsamples), 这样,加和所有节点的代价得到整棵树的总的代价是 O(nfeaturesnsamples2lognsamples)O(n_{features}n_{samples}^2\log n_{samples})O(nfeaturesnsamples2lognsamples).
Scikit-learn提供了更加有效的决策树构建执行。一个naive执行是,重新计算类标签直方图(分类问题),或者沿着一个给定的特征,在每个新分割点的均值(回归问题)。在所有相关的样本上预先排序特征,保持一个运行标签计数,将减少每个节点的复杂度到 O(nfeatureslognsamples)O(n_{features}\log n_{samples})O(nfeatureslognsamples), 这样,整个代价是 O(nsamplesnfeatureslognsamples)O(n_{samples}n_{features}\log n_{samples})O(nsamplesnfeatureslognsamples). 这是一个基于所有树算法的选项。
实际使用提示
-
对于包括大量特征的数据,决策树容易过度拟合数据。得到样本与特征的比率是重要的,因为高维空间、小样本的树很容易是过度拟合的。
-
在建树前可以考虑作特征降维(PCA, ICA, 特征选择)。
-
使用export函数可视化树,使用参数max_depth=3作为一个初始的树深度,对树拟合数据的程度有一个初步的感觉,然后再增加树深。使用max_depth控制树的规模,避免过度拟合。
-
使用min_samples_split or min_sam