决策树与神经网络入门:原理、实现与应用
1. 决策树基础
决策树通常分为分类树(产生分类输出)和回归树(产生数值输出)。这里主要关注分类树,并通过 ID3 算法从一组带标签的数据中学习决策树,以了解其实际工作原理。为简化问题,主要处理二元输出问题,如“是否应该雇佣这位候选人?”“应该向该网站访客展示广告 A 还是广告 B?”“吃在办公室冰箱里找到的食物会让我生病吗?”
1.1 熵的概念
为构建决策树,需决定询问哪些问题以及顺序。在树的每个阶段,有些可能性已被排除,有些则未被排除。例如,得知某动物的腿数不超过五条后,就排除了它是蚱蜢的可能性,但不能排除它是鸭子的可能性。每个可能的问题会根据答案对剩余可能性进行划分。
理想情况下,应选择答案能提供大量关于树预测信息的问题。若有一个是非问题,“是”的答案总是对应“真”输出,“否”的答案总是对应“假”输出(反之亦然),那这就是一个很好的问题。相反,若一个是非问题的答案都不能提供关于预测的新信息,那可能不是一个好选择。
用熵来衡量“信息量”。熵通常用来表示数据的不确定性。假设有一组数据 S,每个成员都被标记为属于有限个类别 C1, …, Cn 之一。如果所有数据点都属于同一类别,那么就没有真正的不确定性,即熵较低。如果数据点均匀分布在各个类别中,那么不确定性很大,熵就较高。
用数学公式表示,如果 pi 是标记为类别 ci 的数据比例,则熵定义为:
[ H(S) = -p_1 \log_2 p_1 - … - p_n \log_2 p_n ]
其中约定 ( 0 \log 0 = 0 )。
每个项 ( -p_i \log_2 p_i ) 是非
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



