01
什么是决策树
大家可能都玩过王者;在王者游戏中,遇到敌人后:
你是选择攻击还是选择逃跑?
如果选择攻击普通的物理攻击还是法术攻击?
......
类比机器学习,为达到目标,为达到目标根据一定的条件进行选择的过程,为我们称为Decision tree,决策树。
02
决策树的内容
之前我们学过,机器学习解决的任务主要有量部分:分类和回归问题。决策树作为经典的机器学习模型,主要用于分类问题。
决策树嘛,当然可以类比树啦;树有树枝和叶子,决策树也是如此。
构建决策树的内容包括了节点和边。节点会根据样本的特征做出判断,最初的分支点,我们称为根节点,其余的称为子节点,不在有分支的称为叶子节点,他们的代表样本的分类结果,边是指示着方向。
特征这么多,谁来做根节点?谁来做子节点?为了构建决策树,人们于是找到了一个衡量标准:熵(entropy)。熵(entropy)是指是衡量一个系统的稳定程度;这里熵代表分支下样本种类的丰富性,样本种类越多越混乱,熵值越大,如果分支下的样本完全属于同一类,那么熵就等于0。构造树的基本思路是随着树的深度增加(层数增多),让熵快速降低,熵降低的越快,分类效果越高。
03
决策树的优缺点
决策树的最大优点是:天然的可解释性;苹果之所以是好苹果是因为它又大又红又甜。
决策树的缺点---数据都是有特例的,如果一棵树能将样本完美分类,那么它一定是过拟合的(解决方法:去掉分支)
04
经典决策树
目前最经典决策树算法有三种:ID3 算法、C4.5 算法、CART(Classification and Regression Tree)。
ID3 是最早提出的决策树算法,他就是利用信息增益来选择特征的。C4.5 算法是 ID3 的改进版,他不是直接使用信息增益,而是引入“信息增益比”指标作为特征的选择依据。CART(Classification and Regression Tree)这种算法即可以用于分类,也可以用于回归问题。CART 算法使用了基尼系数取代了信息熵模型
欢迎加博主微信(13142159848)与博主一起来探讨人工智能!!!