#coding=utf-8
'''
Created on Feb 4, 2011
Tree-Based Regression Methods
@author: Peter Harrington
树回归
分类回归树CART
策树是一种贪心算法,它要在给定时间内做出最佳选择,但
并不关心能否达到全局最优。
优点:可以时复杂和非线性的数据建模。
缺点:结果不易理解。
适用数据类型:数值型和标称型数据。
第3章使用的树构建算法是ID3 o ID3的做法是每次选取当前最佳的特征来分割数据,并按照
该特征的所有可能取值来切分。也就是说,如果一个特征有4种取值,那么数据将被切成4份。一‘
旦按某特征切分后,该特征在之后的算法执行过程中将不会再起作用,所以有观点认为这种切分
方式过于迅速。另外一种方法是二元切分法,即每次把数据集切成两份。如果数据的某特征值等
于切分所要求的值,那么这些数据就进人树的左子树,反之则进人树的右子树。
除了切分过于迅速外,ID3算法还存在另一个问题,它不能直接处理连续型特征。只有事先
将连续型特征转换成离散型,才能在ID3算法中使用。但这种转换过程会破坏连续型变量的内在
性质。而使用二元切分法则易于对树构建过程进行调整以处理连续型特征。具体的处理方法是:
如果特征值大于给定值就走左子树,否则就走右子树。另外,二元切分法也节省了树的构建时间,
但这点意义也不是特别大,因为这些树构建一般是离线完成&#
树回归(源码实现)
最新推荐文章于 2022-03-10 15:07:46 发布