【机器学习】浅析决策树

内容概览:信息熵、决策树、决策树优化、剪枝、决策树可视化
决策树.png

决策树概述

构建决策树的目的是使数据更容易区分开
image.png
image.png

基础概念

比特化(Bits)

  • 假设存在一组随机变量X,各个值出现的概率关系如图;
  • 现在有一组由X变量组成的序列:BACADDCBAC…; 如果现在希望将这个序列转换为二进制进行网络传输,那么我们得到一个这要的序列;01001000111110010010…

P(X=A)=1/4P(X=B)=1/4P(X=C)=1/4P(X=D)=1/4P(X=A)=1/4\quad\quad P(X=B)=1/4 \\ P(X=C)=1/4\quad\quad P(X=D)=1/4P(X=A)=1/4P(X=B)=1/4P(X=C)=1/4P(X=D)=1/4
image.png

  • 而当X变量出现的概率值不一样的时候,对于一组序列信息来讲,每个变量平均需要多少个比特位来描述呢??

image.png

一般化的比特流(Bits)

  • 假设现在随机变量X具有m个值,分别为: V1 ,V2 ,…,Vm;并且各个值出现的概率如下表所示;那么对于一组序列信息来讲,每个变量平均需要多少个比特位来描述呢??

P(X=V1)=p1P(X=V2)=p2...P(X=V1)=p1 \quad P(X=V2)=p2 ...P(X=V1)=p1P(X=V2)=p2...

  • 可以使用这些变量的期望来表示每个变量需要多少个比特位来描述信息:E(X)=−p1log2(p1)−p2log2(p2)−...−pmlog2(pm)=−∑i=1mpilog2(pi)E(X)=-p_{1}log_{2}(p_{1})-p2log_{2}(p_{2})-...-p_{m}log_{2}(p_{m}) \\ =-\sum_{i=1}^{m}p_{i}log_{2}(p_{i})\quad\quad\quad\quad\quad\quad\quad\quad\quadE(X)=p1log2(p1)p2log2(p2)...pm</
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值