机器学习——决策树

决策树的基本知识(上期的东西有的不细,这次补充一下)

说明:这篇博客是看周志华老师的《机器学习》(西瓜书)的笔记总结,仅供学习交流,不做商业用途。
借鉴未名湖畔的落叶
借鉴致敬大神
借鉴maershii
决策树,顾名思义,是通过一个个的判断来形成一个类似于树状的结构,如图:
在这里插入图片描述
在这里插入图片描述

好了,现在你已经对决策树有了基本的概念,然后我们接着介绍:

熵:一种事务的不确定性。
信息:用来消除不确定的事物。功能有三:调整概率,排除干扰,确定情况。

怎么理解这两个东西呢:这就要用买西瓜(因为西瓜书,所以买西瓜)的例子了,你怎么知道你要买的西瓜是不是熟的呢?这个不确定性就是熵。然后你可能会用瓜的特征来判断,比如:纹理,根蒂,触感,色泽。这些特征就是信息,帮助你判断西瓜是否熟了,是不是理解了信息的作用?

噪音:不能消除某人对某件事情不确定的事务。
数据=信息+噪音

社会上的数据千千万,对你有用的叫信息,无用的是噪音。决策树就是要尽量实现对信息的处理和减弱噪音对数据分析的影响。

熵如何度量:公式:

在这里插入图片描述
例如:你有多枚硬币,你抛n枚,则结果为2^n种,这时熵课量化为n,所以若一种事情的概率是10种,那么熵量化为log2(10)。

简单的了解了熵的量化后,我们开始给出公式:信息熵:

在这里插入图片描述
“信息熵”是度量样本集合纯度最常用的一种指标。假定当前样本集合D中第k类样本所占的比例为pk(k=1,2,……,y)。

注:信息熵的值越小,D的纯度越高。
在这里插入图片描述

主要的决策树算法有:ID3,C4.5,C5.0,CART,CHAID,SLIQ,SPRINT。 因为笔者学习进度限制,这篇博客不会讲全,以后的博客会更新。哈哈

信息增益(决策树ID3训练算法)
在这里插入图片描述

信息增益的计算过程是一个递归的过程,口述反而容易让读者迷糊,请看链接的视频,随博主走一遍,你恍然大悟。看这,致敬大神

增益率(决策树C4.5训练算法):
因为信息增益会对可取值数目较多的属性有所偏好。
所以引入增益率,但是会对可取值数目少的属性有所偏好,C4.5算法流程与ID3相类似,只不过将信息增益改为信息增益比。

在这里插入图片描述
视频讲解,找大神

基尼指数:

在这里插入图片描述

继续看大神生动的讲解,但是视频有错,应该是基尼指数越小,纯度越高,注意理解

剪枝处理:为了防止在训练集上表现的很好,但是在验证集上表现得未必很好,因此要进行剪枝处理。为了提升精度,用剪枝处理判断是否需要继续细分下去。

【从高压输电线的架空地线中汲取电能】一个25千瓦受控电源从735千伏线路的架空地线中汲取电能的SimPowerSystems模型(Simulink仿真实现)内容概要:本文介绍了一个基于SimPowerSystems的Simulink仿真模型,用于模拟从735千伏高压输电线的架空地线中汲取25千瓦电能的受控电源系统。该模型聚焦于高压输电线路中架空地线的能量回收技术,通过仿真手段实现对电能采集过程的建模与控制策略验证,体现了电力系统中新型能源获取方式的技术可行性与工程应用潜力。文中还提及该资源属于一系列电力系统仿真研究的一部分,涵盖微电网、储能优化、碳流追踪、鲁棒调度等多个前沿方向,配套提供Matlab/Simulink代码及网盘资料链接,便于科研人员复现与拓展研究。; 适合人群:具备电力系统基础知识、熟悉Matlab/Simulink仿真环境,从事电力工程、能源回收或智能电网相关研究的科研人员及研究生;有一定编程与建模仿真经验的高年级本科生或工程技术人员。; 使用场景及目标:①研究高压输电线路中架空地线的能量回收机制与建模方法;②掌握基于Simulink的电力系统仿真技术,特别是受控电源与电网交互的动态特性分析;③为开展能源 harvesting、分布式供能、电力电子变换器控制等相关课题提供参考模型与技术支撑; 阅读建议:建议结合提供的仿真模型文件进行实操演练,重点理解系统结构设计、参数设置与控制逻辑实现;同时可延伸学习文档中提到的其他电力系统优化与仿真案例,以拓宽研究视野和技术积累。
决策树算法是一种广泛应用于分类和回归的机器学习算法,它基于树形结构对样本进行分类或预测。决策树算法的主要思想是通过一系列的判断来对样本进行分类或预测。在决策树中,每个节点表示一个属性或特征,每个分支代表该属性或特征的一个取值,而每个叶子节点代表一个分类或预测结果。 决策树算法的训练过程主要包括以下步骤: 1. 特征选择:根据某种指标(如信息增益或基尼系数)选择最优的特征作为当前节点的分裂属性。 2. 决策树生成:根据选择的特征将数据集分成若干个子集,并递归地生成决策树。 3. 剪枝:通过剪枝操作来提高决策树的泛化性能。 决策树算法的优点包括易于理解和解释、计算复杂度较低、对缺失值不敏感等。但是,决策树算法也存在一些缺点,如容易出现过拟合、对离散数据敏感等。 下面是一个决策树算法的案例:假设我们要根据一个人的年龄、性别、教育程度和职业预测其收入水平(高于或低于50K)。首先,我们需要将这些特征进行编码,将其转换为数值型数据。然后,我们可以使用决策树算法对这些数据进行训练,并生成一个决策树模型。最后,我们可以使用该模型对新的数据进行分类或预测。例如,根据一个人的年龄、性别、教育程度和职业,我们可以使用决策树模型预测该人的收入水平。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值