信息论的由来:
是应用数学的分支,主要研究的是对一个信号能够提供的信息多少进行量化,最初用于研究在一个含有噪声的信道上用离散的字母表来发送消息,指导最优的通信编码。
一个信息论的基本想法:一个不太可能发生的事件发生了要比一个非常可能的事件发生提供更多的信息,也就是‘异常’事件发生的背后拥有我们更想知道的东西。
信息熵
自信息:
一个事件所包含的信息
信息熵:
随机变量或整个系统的不确定性,熵越大,随机变量或系统的不确定性就越大,及所描述的是有关事件X的所有可能结果的自信息期望值:
其中,n代表事件x的所有n种可能的取值,Pi代表了事件x为i时的概率。
信息熵的意义:
熵的作用:计算损失(Loss function)用于调整梯度递减的步长
本次熵(损失)比上次熵(损失)大,说明步长太大了。

本文深入探讨了机器学习的信息论基础,包括信息熵、自信息、联合熵、条件熵、相对熵、互信息和信息增益。信息熵作为衡量不确定性的关键指标,影响着梯度下降的步长和决策树的划分标准。自信息反映了事件发生时的信息量,而互信息则用于衡量两个随机变量之间的相关性。文章通过实例解释了这些概念,并指出它们在机器学习中的应用,如决策树的构建和损失函数的设计。
最低0.47元/天 解锁文章
17万+

被折叠的 条评论
为什么被折叠?



