信息增益与香农熵在机器学习中的应用

信息增益与香农熵在决策树中的应用

最新推荐文章于 2025-11-25 12:11:01 发布

CqpFsharp

最新推荐文章于 2025-11-25 12:11:01 发布

阅读量188

点赞数

CC 4.0 BY-SA版权

文章标签：机器学习人工智能算法机器学习-深度学习

本文链接：https://blog.youkuaiyun.com/CqpFsharp/article/details/133220285

机器学习-深度学习专栏收录该内容

55 篇文章 ¥59.90 ¥99.00

订阅专栏

信息增益和香农熵是机器学习中评估特征重要性的关键概念，尤其在决策树算法中。信息增益衡量特征对分类的贡献，而香农熵则量化数据集合的不确定性。通过计算两者，可以选取最佳划分特征，提高分类模型的性能和准确性。

在机器学习中，信息增益和香农熵是两个重要的概念，用于评估和选择特征在分类问题中的重要性。本文将详细介绍信息增益和香农熵的定义和原理，并提供相应的源代码示例。

信息增益

信息增益是一种衡量特征对于分类问题的贡献程度的指标。在决策树算法中，通过计算每个特征的信息增益来选择最佳的划分特征。信息增益的计算基于香农熵的概念。

香农熵是用于衡量一个随机变量的不确定性的指标。在分类问题中，我们可以将香农熵看作是对数据集合的纯度的度量。如果一个数据集合完全属于同一类别，则熵最小；如果一个数据集合中包含多个不同类别的样本，则熵最大。

下面是计算香农熵的源代码示例：

import math

def calculate_entropy(labels):
    label_counts = {
   
   }
    entropy <

了解本专栏

订阅专栏解锁全文

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

CqpFsharp

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

订阅专栏

机器学习笔记 - 信息增益和香农熵

学以致用知行合一

09-20

742

如何合理的划分数据集？划分数据集的大原则是：将无序的数据变得更加有序。组织杂乱无章数据的一种方法就是使用信息论度量信息，在划分数据集之前之后信息发生的变化称为信息增益，知道如何计算信息增益，我们就可以计算每个特征值划分数据集获得的信息增益，获得信息增益最高的特征就是最好的选择。在可以评测哪种数据划分方式是最好的数据划分之前，我们必须学习如何计算信息增益。集合信息的度量方式称为香农熵或者简称为熵，这个名字来源于信息论之父克劳德·香农。熵定义为信息的期望值，在明晰这个概念之前，我们必须知道

机器学习之熵的计算方法及香农信息熵的含义

嵌入式软件开发及周边的专栏

02-14

1108

香农熵通过概率分布量化了数据的不确定性和信息量。计算时使用公式，其值越大表示数据越混乱、不确定性越高，反之则越有序和确定。在多个领域如数据压缩、机器学习和密码学中具有广泛的应用价值。

1 条评论您还未登录，请先登录后发表或查看评论

1 条评论

优快云-Ada助手 2023.09.24
非常感谢您的持续创作，第7篇博客的标题“信息增益与香农熵在机器学习中的应用”听起来非常有深度和专业性。恭喜您在机器学习领域的知识探索取得了不错的成果！下一步，我建议您可以进一步探讨一些实际案例，展示信息增益和香农熵在机器学习中的具体应用，并分享一些实践经验和技巧。期待您的更多精彩文章！

机器学习_决策树_香农熵和信息增益

进击的小学生

11-03

5543

转载请注明出处（作者：Allen ，时间：2014/11/3）一、如何衡量样本的混乱度？先来谈谈什么叫样本的乱混度？假设有一桶鱼，一共就包含了两种鱼，一种是鲫鱼，另一种是鲤鱼，如果说这桶鱼里大部分都是鲫鱼，只有了了几条鲤鱼，那么说，这桶鱼的纯度(purity)是比较高的，反过来说就是混乱度比较低，对应的熵就小（熵就是来描述混乱程度的嘛）。如果说这桶鱼鲫鱼和鲤鱼基本上都差不多数量，那意味着此时纯度就...

使用香浓熵实现DNS Tunnel检测

华为云官方博客

06-29

2782

最近抽了些时间研究了一下BIND（Linux DNS）日志，希望能通过DNS查询查询日志发现一些黑客入侵的蛛丝马迹。黑客在入侵服务器之后，往往需要将目标系统中核心的信息资产传回，而传输往往会遇到防火墙、IDS等防护设备的阻拦，但通常再严密的防火墙至少也要放通DNS服务器的请求，在这个前提下，就有大牛想出通过DNS Tunnel传送数据，避过防火墙来外发数据。业界已经有很多此类工具，比如dnsc...

信息熵和信息增益的简单理解与计算

学而不思则忘

10-20

3643

信息熵：信息熵的概念很简单，熵在信息论中代表随机变量不确定的度量。熵越大，数据的不确定性越高。熵越小，数据的不确定性越低。信息熵的公式：下面的公式就是香农提出的信息熵的公式： H=−∑i=1kpilog(pi)H = - \sum_{i=1}^k p_i log(p_i)H=−i=1∑kpilog(pi) 解释一下：假如一组数据有k类信息，那么每一个信息所占的比例就是pip...

trees 香农熵，信息增益计算

zphshiwo的专栏

09-06

560

#计算香农熵 from math import log #条件1，条件2，结果，通过for循环取出每列的结果featVec[-1],然后计算结果所占用的数量labelCounts #然后就是香农熵的计算公式 -sum(p*log(p,2)),计算出当前数组的香农熵 def calcShannonEnt(dataSet): numEntries = len(dataSet) labelCoun...

构建决策树：Python机器学习中的信息熵与香农熵

"这篇资源详细介绍了Python机器学习中的决策树分类方法，强调了决策树与k近邻算法的区别，并引入了香农熵和信息增益的概念用于构建决策树。" 在机器学习领域，决策树是一种广泛应用的分类算法，它通过构建一棵树状...

【机器学习】4 ——熵

qq_43507078的博客

09-07

1722

信息熵

线性代数 | 学习启示与策略改进

u013669912的博客

11-23

1274

……

基于学习的人工智能（7）机器学习基本框架

致力于大数据+AI 的应用创新。

11-24

643

如今，人工智能展现出的强大能力——包括人们常谈论的AI 威胁，很大程度上源于机器学习：只有通过自主学习的机器，才有可能超越其创造者，具备难以预料的强大能力。数据：收集苹果和桔子的样本，并分别标记（例如，苹果标记为 T=1，桔子标记为 T=0）。图中的蓝色直线代表模型对应的分类边界，上方为苹果，下方为桔子。机器学习作为实现人工智能的核心方法，通过特定算法从数据中自主学习，获得完成目标任务的技能。模型：构建一个简单模型，如 Y=a × 颜色 + b × 大小，其中 a 和 b 为待学习的参数。

Switch快充方案，内置GaN，集成了多个独立芯片

NAXIANG_TECH的博客

11-24

145

Switch快充方案是一款集快充、拓展坞和投屏功能于一体的多功能解决方案。它采用TYPE-C接口为Switch提供PD60W快充，同时配备USB-A接口和HDMI/4K视频输出，支持多设备充电和投屏功能。内置氮化镓功率器件，各功能互不干扰，USB-A口最大输出5W，HDMI支持4K投屏。该方案兼容PD3.0、QC4等多种协议，支持连接键鼠、U盘等外设，并具备多重安全保护，适用于家庭娱乐、移动办公等多种场景。

DAY 19 常见的特征筛选算法

ekprada的博客

11-24

682

想象一下，原始数据（如 data.csv）如同一个人的全部信息，涵盖身高、体重、年龄、收入、爱好、有无车房等几十个特征。特征筛选的目标，是从这众多特征中挑出对解决问题（如预测信用违约）最有用的特征，去除无关紧要甚至有干扰的特征。方差 (Variance)：统计学中，方差衡量一组数据的离散程度或变化范围。方差大：特征数值在不同样本间变化大，波动剧烈。方差小：特征数值在所有样本中相近，几乎无变化。筛选逻辑。

机器学习日报20

2405_85645789的博客

11-24

570

今天深入学习了K-means算法的数学原理和优化过程。通过分析成本函数的构成，我理解了算法如何通过交替优化聚类分配和中心位置来最小化平方距离。具体来说，第一步是将每个点分配到最近的聚类中心，第二步是重新计算聚类中心为所属点的平均值。这种迭代过程能保证成本函数持续下降直至收敛，让我对算法的内在机制有了更清晰的认识。今天的学习让我真正理解了K-means算法背后的数学原理。之前只知道算法步骤，现在明白了每个步骤都是在优化那个平方距离的成本函数。

针刺脑影像个体化预测的稳健机器学习框架与可解释性分析

星空外

11-24

1188

摘要：本文综述了机器学习在脑影像数据分析中的应用进展，重点探讨其在针刺神经机制研究中的转化潜力。研究表明，集成学习与深度学习模型在脑肿瘤分类、卒中预测等任务中展现出优越性能，而特征选择与可解释AI技术（如SHAP、LIME）有效提升了模型的临床适用性。针对针刺研究面临的个体响应异质性挑战，提出需构建融合多模态脑影像与中医证候要素的预测框架，并强调标准化数据采集、稳健特征工程和透明决策机制的重要性。未来应发展闭环式智能调控系统，推动针灸从经验医学向循证医学转化，同时需警惕数据过拟合风险，确保模型的外部效度。

深度学习实战：构建 GAN 生成手写 MNIST 数字

sweet_ran的博客

11-23

829

摘要：本教程将带你从零实现一个基于 PyTorch 的生成对抗网络（GAN），用于生成逼真的手写数字图像。我们将完整复现训练流程、损失曲线可视化和结果展示，帮助你深入理解 GAN 的工作原理。

【机器学习】监督学习、无监督学习、半监督学习、自监督学习、弱监督学习、强化学习

Ma040713的博客

11-23

749

机器学习主要包含六种学习范式：监督学习依赖标注数据进行分类和回归；无监督学习通过聚类和降维挖掘未标注数据的隐藏模式；半监督学习结合少量标注和大量未标注数据提升泛化能力；自监督学习通过构造伪标签实现无监督预训练；弱监督学习利用不精确标签完成精细任务；强化学习通过环境交互学习最优策略。这些方法各有特点，当前主流趋势是采用自监督预训练+监督微调+强化学习对齐的组合范式，但也面临数据依赖、评估困难、能耗高等挑战。

基于学习的人工智能（1）为什么学习？

致力于大数据+AI 的应用创新。

11-24

289

学习是人类最重要的认知活动之一，贯穿我们的一生。出生后，我们无时无刻不在学习：从父母那里学说话，自己尝试走路，从小伙伴那里学会折纸飞机，从老师那里学到语文、数学等各种知识。研究人员始终将光源和风扇放在同一侧，经由学习，玉米幼苗逐渐学会了“有风的地方就会有光”的规律。之后，研究人员移去光源，并改变风扇方向，玉米幼苗依然按照所学知识，向风扇方向生长。1959 年，美国计算机学家亚瑟·塞缪尔设计了一款可以自我学习的跳棋程序，并将这一新方法称为“机器学习”，从而开启了机器自我学习的道路。

三大空间信息焕新：辉视让酒店服务、教育通知、监所管控更智能高效

CalebLXL的博客

11-24

866

走访这些场所后我发现，系统的真正价值不在于那些炫目的屏幕，而在于它构建了一套"空间信息免疫系统"——就像人体淋巴网络般，能智能识别各区域的信息需求，精准输送"营养"，快速清除"毒素"。当我们在酒店大堂不再错过末班机场大巴，在学校走廊偶遇恰好需要的竞赛通知，甚至在高墙内获得规整的信息权时，或许该重新思考：所谓智能化，本质是对空间信息代谢效率的一次外科手术式改造。这种荒诞的割裂感，正是传统信息分发模式崩溃的缩影——直到我最近走访数家采用辉视系统的场所，才意识到我们早已进入"精准信息触达"的新纪元。

（116页PPT）关于5G和新基建赋能智慧工地整体解决方案（附下载方式）