机器学习算法第九篇
主要内容:决策树+损失函数+剪枝算法(此剪枝算法只适用于ID3于C4.5)
剪枝目的:
- 解决决策树过拟合问题
决策树过拟合:
- 根据ID3与C4.5的算法我们可以知道,决策树依据信息增益或信息增益比在不断的迭代生产新的子节点,直到不能继续下去为止
这个过程中,算法只考虑当前节点的特征选择与数据的划分,并无对树形结构复杂度的考虑,然后生成一颗非常复杂的树,
这种树可能会得出对训练数据分类非常准确,却对测试数据不太准确的决策树,这种情况称为过拟合
剪枝算法实现:
- 通过对上述复杂的树进行整体剪枝处理,可以减少复杂度,平衡模型对训练集的预测误差与模型的复杂度,达到两者同时最小
损失函数:
- 设树T的叶子节点的个数为∣T∣设树T的叶子节点的个数为\vert T\vert设树T的叶子节点的个数为∣T∣
- t是树T的叶子节点t是树T的叶子节点t是树T的叶子节点
- 该节点有Nt个样本该节点有N_t个样本该节点有Nt个样本
- 其中k类的样本点有Ntk个,k=1,2,3...,K其中k类的样本点有N_{tk}个,k=1,2,3...,K其中k类的样本点有Ntk个,k=1,2,3...,K
- Ht(T)为叶子节点t上的熵H_t(T)为叶子节点t上的熵H