An Information-Theoretic View for Deep Learning(从信息论的视角看深度学习)

本文从信息论的角度探讨深度学习,分析了深度神经网络(DNNs)的层次特征映射与马尔科夫链的关系,揭示了信息损失如何增强泛化能力,并通过上界公式说明了网络深度与泛化误差的指数级降低。然而,过深的网络可能导致训练误差增加,同时讨论了深度学习的稳定性、样本复杂度及其与信息损失的关系。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

An Information-Theoretic View for Deep Learning

作者:Jingwei Zhang, Tongliang Liu, Dacheng Tao
The University of Sydney, NSW, Australia
发布时间:3 May 2018

1. Abstract and Introduction

Deep Learning 的两个关键问题:

  • 为什么越深泛化能力越好?
  • 是不是总是越深,网络表现越好

文章的核心结论公式:

E[R(W)RS(W)]exp(L2log(1η))2σ2nI(S,W)E[R(W)−RS(W)]≤exp(−L2log(1η))2σ2nI(S,W)

符号含义:

  • E[R(W)]E[R(W)]是the expected risk: E[R(W)]=EZ D[l(W,Z)]E[R(W)]=EZ D[l(W,Z)]
  • ZZ为数据, D 为数据分布,WW为训练好的网络(a hypothesis)
  • E [ R S ( W ) ] 是the empirical risk: E[<
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值