深度学习架构中的信息表示与层压缩性
1. 不同神经元的信息表示
1.1 经典感知机
经典感知机的输入变量为 $X : \Omega \to R^n$,输出为 $Y = H(w^T X + \theta)$,其中 $H$ 是海维赛德阶跃函数,$w \in R^n$ 是固定的权重系统,$\theta \in R$ 是给定的阈值。输出可以写成指示函数 $Y = 1_A$,其中 $A = X^{-1}(H^+ {w,\theta})$,$H^+ {w,\theta} = {x; w^T x + \theta \geq 0}$ 表示 $R^n$ 中具有法向 $w$ 的封闭上半空间。
生成的 $\sigma$-代数为 $S(Y) = {Ø, A, A^c, \Omega} = {Ø, X^{-1}(H^+ {w,\theta}), X^{-1}(H^- {w,\theta}), \Omega}$,它只能对两类聚类进行分类,因为其容纳的信息有限。
1.2 线性神经元
输入为 $X : \Omega \to R^n$,输出为 $Y = w^T X + \theta$。对于任意实数 $k$,$Y^{-1}(-\infty, k) = X^{-1}(H^- {w,\theta - k})$,则 $S(Y) = X^{-1}(S{H^- {w,u}; u \in R})$。由于超平面 ${w^T x + u = 0}$ 是平行的,该 $\sigma$-代数容纳的信息比经典感知机更多,定义了空间中平行超平面场的信息。
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



