算法基础-决策树随机森林

##决策树
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述
互信息:衡量2个变量是否独立的指标,若独立则联合概率等于概率的乘积,既I(X,Y)=p(x,y)log1=0,不独立则不等于0
在这里插入图片描述
条件熵等于熵减互信息
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

信息增益

在这里插入图片描述
信息增益率:信息增益除以本身的熵
在这里插入图片描述

基尼系数

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

评价

在这里插入图片描述
在这里插入图片描述

剪枝

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

随机森林

在这里插入图片描述
在这里插入图片描述
out of bag
随机森林每一颗树的样本数可以跟总样本数一样,也可以不一样;特征的选择也是随机的
随机森林每棵树的训练样本不一样

极限森林:多了一项,分裂条件随机(不是最好的分裂条件),一般是选择使得信息增益最大的阈值作为分裂条件,但是极限森林是给每个候选特征随机阈值,在这些随机给出的阈值中选择信息增益最大的作为分裂条件。

在这里插入图片描述

投票机制

在这里插入图片描述
在这里插入图片描述

样本不均衡的处理方法

在这里插入图片描述
例:正例990,负例10
重采样:10个负例重复使用(10*10),10个负例当中每个负例重复的次数可能不同(构造多个分类器,集成)
降采样:10个负例全要,正例按一定比例随机抽取(构造多个分类器,集成)
**一般降采样效果好于重采样

聚类法:将数量多的样本聚类成N个簇,再与数量小的样本进行分析
插值法:随机差值生成新的小样本

RF计算样本相似度

在这里插入图片描述
思想:2个样本经过决策树分类后若被分到同一个叶子节点则说明2个样本比较相似。统计N颗决策树中,2个样本被分到不同叶子节点的次数,若2个样本出现在相同叶子节点的次数越多,则越相似

RF计算特征重要度

在这里插入图片描述

RF异常检测

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
决策树处理回归问题时,y值为叶子节点对应所有x对应y的均值

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值