18、决策树与神经网络入门:原理、实现与应用

决策树与神经网络入门:原理、实现与应用

1. 决策树基础

决策树通常分为分类树(产生分类输出)和回归树(产生数值输出)。这里主要关注分类树,并通过 ID3 算法从一组带标签的数据中学习决策树,以了解其实际工作原理。为简化问题,主要处理二元输出问题,如“是否应该雇佣这位候选人?”“应该向该网站访客展示广告 A 还是广告 B?”“吃在办公室冰箱里找到的食物会让我生病吗?”

1.1 熵的概念

为构建决策树,需决定询问哪些问题以及顺序。在树的每个阶段,有些可能性已被排除,有些则未被排除。例如,得知某动物的腿数不超过五条后,就排除了它是蚱蜢的可能性,但不能排除它是鸭子的可能性。每个可能的问题会根据答案对剩余可能性进行划分。

理想情况下,应选择答案能提供大量关于树预测信息的问题。若有一个是非问题,“是”的答案总是对应“真”输出,“否”的答案总是对应“假”输出(反之亦然),那这就是一个很好的问题。相反,若一个是非问题的答案都不能提供关于预测的新信息,那可能不是一个好选择。

用熵来衡量“信息量”。熵通常用来表示数据的不确定性。假设有一组数据 S,每个成员都被标记为属于有限个类别 C1, …, Cn 之一。如果所有数据点都属于同一类别,那么就没有真正的不确定性,即熵较低。如果数据点均匀分布在各个类别中,那么不确定性很大,熵就较高。

用数学公式表示,如果 pi 是标记为类别 ci 的数据比例,则熵定义为:
[ H(S) = -p_1 \log_2 p_1 - … - p_n \log_2 p_n ]
其中约定 ( 0 \log 0 = 0 )。

每个项 ( -p_i \log_2 p_i ) 是非

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值