【深度学习】交叉熵

原创

已于 2024-11-03 02:31:20 修改 · 933 阅读

·

17

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#深度学习 #人工智能

于 2024-07-24 02:30:47 首次发布

文章目录

信息熵公式
- 自信息公式推导
- - 1. 使用 $P (X)$
  - 2. 选用 $l o g$ 的原因
梯度优化
- 1. 在分类问题中，交叉熵等价于最大似然估计（MLE）
- 2. 为什么在误差很大的地方，均方误差会难以优化？—— 梯度消失问题
补充定义
参考来源

信息熵公式

香农（Shannon） - 信息论

$\begin{align*} H(X) &= E[I(X)]\\ &=E[-log(P(X))]\\ &=\sum_{i=0}^n -p(x_i)\cdot log(p(x_i)) \end{align*}$

$X$ 为随机变量
$I (X)$ 为自信息

自信息公式推导

$\begin{align*} I(X) &=log(\frac{1}{P(X)})\\ &= -log(P(X)) \end{align*}$

1. 使用 $P (X)$

根据该基本事件 $X$ 发生
自信息量 = $1/ P (X)$
- 一个基本事件发生的概率越低，代表当其发生时所 “携带的信息” 以及 “使得系统信息熵降低程度” 更大，可以更精准地定位系统状态/熵的变化幅度

2. 选用 $l o g$ 的原因

一条信息的可能性 “含量” 随着内存位数的增加而指数倍增加
- 系统的实际衡量标准之一就是 “内存” 大小
二进制：计算机存储信息
- $1\ bit$ 有 ${0, 1\}$ $\rightarrow 2^1$ 个状态
- $N\ bits$ 有 $\rightarrow 2^N$ 个状态
将信息含量按照存储方式（如二进制）转化为实际的内存大小： $log_2(2^N) \rightarrow N\ bits$
- 整个系统中，每个最小单位所存储的信息量（标准化）： $i = 1/2^N$
  $\begin{align*} N &= log_{0.5}(i)\\ \rightarrow N &= log(i)\\ \rightarrow N &= log(2^N) \end{align*}$

最低0.47元/天解锁文章

200万优质内容无限畅学

博客等级

码龄7年

23
原创

99
点赞

106
收藏

105
粉丝

关注

私信

热门文章

分类专栏

计组 4篇
CS-Courses 4篇
Full Stack
LLM 10篇
实践 10篇
深度学习 1篇
Java 1篇
大数据 1篇
机考 2篇
LeetCode 3篇
概统 1篇

展开全部收起

上一篇：: 【Java 入门】知识点摘录Ⅰ

下一篇：: 【InternLM 书生大模型】L0G1000 - Linux

最新评论

【InternLM 书生大模型】L0G1000 - Linux
优快云-Ada助手: 不知道 CS入门技能树是否可以帮到你：https://edu.youkuaiyun.com/skill/gml?utm_source=AI_act_gml
【深度学习】交叉熵
优快云-Ada助手: 推荐 Python入门技能树：https://edu.youkuaiyun.com/skill/python?utm_source=AI_act_python
【Java 入门】知识点摘录Ⅰ
优快云-Ada助手: 恭喜您撰写了第8篇博客！标题为“【Java 入门】知识点摘录Ⅰ”非常吸引人。您的博客能够帮助读者系统地了解Java入门知识，这对于初学者来说无疑是一份宝贵的资料。在接下来的创作中，建议您可以进一步拓展主题内容，例如深入探讨Java的常见应用场景，或者分享一些实践经验和故事。这样的内容能够为读者提供更多的参考和启发，并帮助他们更好地掌握Java编程。再次恭喜您的持续创作，期待您未来更多博客的分享！请保持谦虚的态度，与读者分享您的知识和经验。加油！
【概率刷题】Coupon Collector‘s Problem
优快云-Ada助手: 恭喜你写了第5篇博客，标题为“【概率刷题】Coupon Collector's Problem”。我很高兴看到你持续创作，并选择了一个有趣的主题。通过这篇博客，你向读者介绍了一个有趣的问题，概率刷题的内容也让人着迷。在下一步的创作中，我建议你可以尝试探讨一些与概率相关的实际应用，或者分享一些实用的概率计算技巧。此外，你还可以加入一些具体的例子或案例，以帮助读者更好地理解概率问题。我相信通过这样的努力，你的博客将会更加丰富有趣。再次恭喜你，并期待你的下一篇作品！
【LeetCode刷题】栈与队列
优快云-Ada助手: 非常欢迎您持续创作，这篇关于栈与队列的LeetCode刷题博客听起来非常有趣！通过根据元素列表生成正确的计算表达式，这是一个很有挑战性的问题。在您未提及的相关知识和技能方面，您可以考虑介绍一下逆波兰表达式（Reverse Polish Notation）的概念和应用。逆波兰表达式是一种无需括号即可进行计算的表达式形式，它可以通过栈来实现。通过了解逆波兰表达式，您可以进一步扩展您的知识，提供给读者更多的解决问题的思路。期待您的下一篇博客！如何写出更高质量的博客，请看该博主的分享：https://blog.youkuaiyun.com/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2

大家在看

最新文章

目录

展开全部

收起

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。