必备的数学知识
矩阵微分与求导
前言
深度学习向来被很多人认为是“黑盒”,因为似乎很多人都不清楚深度学习的运作方式,本系列《深度学习中的数学》的连载文章主要目的就是向大家揭开深度学习背后工作的机理。
在正式开始之前,我想说一些题外话。我们经常能听到关于神经网络不具备解释性的言论,而我个人对此的观点是神经网络是具有解释性的,只是很多人在用神经网络的时候,仅仅停留在调包的层面上,那又怎么可能知道神经网络是如何运作的呢?这个问题需要从参数的梯度来窥探究竟的,如果你能手撕一遍神经网络参数的梯度推导公式,再辅以深度学习计算框架,如tensorflow或pytorch的自动求导的验证,那么原本所谓的黑盒在那时候的你看来就是个彻底的白盒了。
本系列的内容编排大致如下:
一些重要的数学预备知识:矩阵微分的数学准备 + 矩阵微分的应用demo,分为上下两个部分
DNN的前向传播算法与反向梯度推导
CNN的前向传播算法与反向梯度推导
RNN的前向传播算法与反向梯度推导 + RNN会引起梯度消失的原因分析
LSTM前向传播算法与反向梯度推导 + LSTM能解决梯度消失的原因分析
借助tensor