交叉熵的理解--从数学角度分析

最新推荐文章于 2024-12-14 10:48:42 发布

借180

最新推荐文章于 2024-12-14 10:48:42 发布

阅读量835

点赞数 20

文章标签：机器学习人工智能算法

本文链接：https://blog.youkuaiyun.com/qq_62737318/article/details/137407945

版权

在机器学习中，我们经常需要计算相似度或者距离。比如：向量之间的相似度，典型的方法如余弦相似度，通过向量夹角的余弦值来刻画，那么对于概率分布之间的相似度或者距离该如何计算呢？

假设小鸟通过叽叽喳喳的方式交流

那么假设叽是0，喳是1，

那么小鸟通过不同的叽叽喳喳的方式进行交流，这个过程我们称为编码，为了让小鸟省点力气，我们希望叫声尽可能的少，也就是编码长度尽可能的短，由于需要传递分布下的每一个事件，所以体现为事件A和事件B的平均编码长度尽可能的短

写成函数期望的形式便是：

虽然互不相同的编码方式非常多，但是我们选择长度最短的编码，当事件编码长度为1我们就说这个事件包含了一个比特的信息量，当概率分布包含4个等可能的事件时，小鸟最少需要叫两声，才能做到不混淆每个事件，相应的编码长度就是2，同理8,3.

但是当分布中的4个事件不是等可能的，虽然可以依照前面的编码，平均编码长度就是3，或者可以用编码4个等可能事件的方式，平均编码长度就是2，编码长度与4个等可能的事件没什么区别，但是小鸟依然觉得很累，因为事件A的发生概率最大为1/2，也就是说小鸟会经常性的传递

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

借180

关注关注

20
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

TensorFlow 实战（一）—— 交叉熵（cross entropy）的定义

hftytf的博客

11-10

545

TensorFlow 实战（一）—— 交叉熵（cross entropy）的定义

熵与交叉熵：从不确定性角度理解 KL 散度

最新发布

进一步有进一步的欢喜~

01-10

1146

从不确定性减少的视角深入理解 KL 散度，为我们提供了一种直观且强大的方式来衡量不同概率分布之间的差异，以及评估基于近似分布所做决策或预测的质量。

参与评论您还未登录，请先登录后发表或查看评论

机器学习之交叉熵

dundunmm的博客

12-14

1060

交叉熵（Cross-Entropy）是机器学习中用于衡量预测分布与真实分布之间差异的一种损失函数，特别是在分类任务中非常常见。：对于二分类任务，真实标签 y∈{0,1}，模型预测 \hat{y} \in [0, 1]。交叉熵是分类任务中的核心损失函数之一，其优异的性质和强大的优化能力使其在机器学习的各个领域得到了广泛应用。其中 y_k 表示第 k 类的真实标签，\hat{y}_k 表示模型对第 k 类的预测概率。：交叉熵是 KL 散度的一部分，衡量预测分布与真实分布的差异。其中 c 是真实类别的索引。

交叉熵（cross entropy）

KKKKu1977的博客

07-11

659

交叉熵 给定两个概率分布：p（理想结果即正确标签向量）和q（神经网络输出结果即经过softmax转换后的结果向量），则通过q来表示p的交叉熵为： H(p,q)=−∑xp(x)logq(x) 注意：既然p和q都是一种概率分布，那么对于任意的x，应该属于[0,1]并且所有概率和为1 ∀xp(X=x)ϵ[0,1]且∑xp(X=x)=1 交叉熵刻画的是通过概率分布q来表达概率分布p的困难程度，其中p是正确答案，q是预测值，也就是交叉熵值越小，两个概率分布越接近转载于：关于交叉熵（cross entropy），你了

理解交叉熵

Yan456jie的专栏

04-13

3051

交叉熵公式 H(p,q)= 交叉熵是用于度量两个分部距离的如度量两片文章相似度时，i代表第i个单词，p(i)代表这个单词出现频率如将其作为神经网络误差函数时 y为预测值，a为实际输出值，输出层第i个神经元的值为概率p(i)

交叉熵和相对熵（KL散度）

jzwei023的博客

04-07

632

信息量熵当一个事件发生的概率为 P(x)，那么它的信息量是 -log(p(x))。那么熵就是信息量的期望。假如事件X有n种可能x1，x2，...，xn，发生xi的概率是p（xi），那么熵H（X）定义如下：对于0-1分布问题（二项分布的特例），熵的计算方法可以简化为如下算式：相对熵（KL散度）相对熵（relative entropy），又被称为Kullback-Leibler散度（Kullback-Leibler divergence）或信息散度（information d

Python-神经网络数学原理图解

08-11

本文将探讨神经网络的学习过程，特别是从数学角度出发。 **1. 神经网络基础** 神经网络是由一系列相互连接的节点（称为神经元）组成的结构。每个神经元接收输入，通过加权求和后进行非线性转换，最终产生输出。...

yolo算法数学原理：从数学角度理解目标检测

[yolo算法数学原理：从数学角度理解目标检测](https://img-blog.csdnimg.cn/4547ee45ef1040ca8e2157f236a1bc95.jpeg) # 1. 目标检测概述** 目标检测是计算机视觉中一项基本任务，其目的是在图像或视频中识别和定位...

自信息量-信息熵-KL散度-交叉熵损失.pdf

12-30

在二分类问题中，交叉熵损失函数与KL散度在数学上是等价的，但它们关注的角度有所不同。交叉熵损失函数更加关注的是概率值本身，而KL散度更侧重于两个分布之间的差异。 Softmax函数是一种常用的激活函数，在多分类...

交叉熵（cross-entropy）

pursuit_zhangyu的博客

06-08

478

原理1.为什么使用交叉熵作为代价函数地址：https://www.zhihu.com/question/652883142.理解交叉熵作为损失函数在神经网络的作用:https://blog.youkuaiyun.com/chaipp0607/article/details/73392175说实话2的解释，讲述了一个数据的处理流程，好像没有牵涉到理论，讲的浅显易懂，结合下面的代码是极好的。代码代码参考地址：ht...

关于交叉熵（cross entropy），你了解哪些

weixin_30950237的博客

02-13

197

二分~多分~Softmax~理预一、简介　在二分类问题中，你可以根据神经网络节点的输出，通过一个激活函数如Sigmoid，将其转换为属于某一类的概率，为了给出具体的分类结果，你可以取0.5作为阈值，凡是大于0.5的样本被认为是正类，小于0.5则认为是负类　然而这样的做法并不容易推广到多分类问题。多分类问题神经网络最常用的方法是根据类别个数n，设置n个输出节点，这样每个样本，神经网络都会...

【Python实现卷积神经网络】：神经网络的Loss函数：Softmax+Cross Entropy前向传播原理+python实现代码

Jack_Kuo的博客

07-24

5365

1.交叉熵的作用通过神经网络解决多分类问题时，最常用的一种方式就是在最后一层设置n个输出节点，无论在浅层神经网络还是在CNN中都是如此，比如，在AlexNet中最后的输出层有1000个节点：一般情况下，最后一个输出层的节点个数与分类任务的目标数相等。假设最后的节点数为N，那么对于每一个样例，神经网络可以得到一个N维的数组作为输出结果，数组中每一个维度会对应一个类别。在最理想的情况下，...

熵、联合熵、相对熵、交叉熵、JS散度、互信息、条件熵

热门推荐

xian0710830114的专栏

12-10

2万+

一、熵对于离散型随机变量，当它服从均匀分布时，熵有极大值。取某一个值的概率为1，取其他所有值的概率为0时，熵有极小值（此时随机变量退化成确定的变量）。对于离散型随机变量，假设概率质量函数为p(x)，熵是如下多元函数：伯努利分布的熵为：对于连续型随机变量，假设概率密度函数为p(x)，熵（也称为微Differential Entropy分熵）定义为：二、联合熵联合熵（Joint Entropy）是熵对多维概...

【CV】常见的损失函数及应用举例：交叉熵、对比、余弦、Dice、Focal Loss

种一棵树最好的时间是十年前，其次是现在

06-25

7096

损失函数的作用是衡量模型预测值与真实值之间的差异，从而评估模型的性能，并通过优化算法（如梯度下降）来调整模型参数，使得损失函数的值最小化，进而提高模型的预测准确性。具体来说，损失函数通常用于监督学习中，给定样本的特征和标签，模型根据特征预测标签，并将预测值与真实值进行比较，计算出损失值。优化过程就是在不断地调整模型参数，使得损失值越来越小。因此，损失函数是优化算法的重要组成部分，它决定了模型优化的方向和速度。

交叉熵损失相关概念的简单理解

qq_44928822的博客

01-20

163

信息量，信息熵，相对熵，交叉熵，softmax

交叉熵 和 softmax 公式及 python 实现

Francis Liu

02-07

1万+

交叉熵损失函数：实际输出（概率）与期望输出（概率）的距离，也就是交叉熵的值越小，两个概率分布就越接近。 Python 实现： def cross_entropy(a, y): return np.sum(np.nan_to_num(-y*np.log(a)-(1-y)*np.log(1-a))) # tensorflow version loss = tf.reduce_mea...

理解熵(信息熵,交叉熵,相对熵)

xidiancxy的博客

03-22

804

Highlights:1）信息熵：编码方案完美时，最短平均编码长度的是多少。 2）交叉熵：编码方案不一定完美时（由于对概率分布的估计不一定正确），平均编码长度的是多少。平均编码长度 = 最短平均编码长度 + 一个增量 3）相对熵：编码方案不一定完美时，平均编码长度相对于最小值的增加值。（即上面那个增量）信息熵1、熵的本质是香农信息量 log(1/p) 的期望；（参考了第一个答案） H(p

常用的Loss & Distance (& Similarity)

yore0531的博客

10-02

395

多用于分类任务中。交叉熵是衡量两个概率分布之间的“距离”或相似性的度量。对于真实概率分布 p 和模型预测的概率分布 q，交叉熵定义为：x 是可能的事件或类别，p(x) 是真实概率，q(x) 是模型的预测概率。在机器学习的分类问题中，真实的类别通常用一个"one-hot"编码的向量来表示，其中只有一个位置是1（代表正确的类别），其他位置都是0。而模型的输出则是一个概率分布，表示每个类别的预测概率。对于二分类任务：对于多分类任务：，其中是label的是。交叉熵损失对模型的错误预测给予了高的惩罚。

一文搞懂交叉熵损失

Brook_cv的博客

12-19

790

本文从信息熵和最大似然估计来推导交叉熵作为分类损失的依据。从熵来看交叉熵损失信息量信息量来衡量一个事件的不确定性，一个事件发生的概率越大，不确定性越小，则其携带的信息量就越小。设XXX是一个离散型随机变量，其取值为集合X=x0,x1,…,xnX = {x_0,x_1,\dots,x_n}X=x0,x1,…,xn ，则其概率分布函数为p(x)=Pr(X=x),x∈Xp(x) = Pr(...

从数学的角度理解神经网络训练

05-23

从数学角度来看，训练过程可以被视为一个优化问题。在神经网络中，模型的参数是以权重矩阵和偏置向量的形式存储的。训练数据被输入到神经网络中，并通过前向传播算法传递到网络的输出层。然后，计算输出层的误差，...