鄙人的新书《Elasticsearch权威指南》正式出版发行,欢迎购买!本书由华为、中兴高级技术专家全面审读并撰序,助您挑战百万年薪 购书链接:
《Elasticsearch权威指南》
欢迎关注鄙人公众号,技术干货随时看!
鄙人的新书《elasticsearch7完全开发指南》,欢迎订阅!
https://wenku.baidu.com/view/8ff2ce94591b6bd97f192279168884868762b8e7
《kibana权威指南》
https://wenku.baidu.com/view/24cfee1ce43a580216fc700abb68a98270feac21
视频教学地址:https://edu.youkuaiyun.com/course/detail/8574
技术交流qq群: 659201069
误差
样本数据的真实值与神经网络的输出值之间的差值称为误差,当然一般不会直接使用直接的差值,常用的有回归算法的均方差、分类的交叉熵,这方面不影响我们来讨论神经网络的反向传播原理与过程,所以不做过多讨论。
梯度下降
目前的神经网络层数可达百层以上,激活函数又是非线性的,很难用一个数学表达式来表达整个神经网络的输出,即使能够找一个数学表达式也是非常复杂,如果能够找到一个数学表达式我们就可以用求解方程的形式推导出参数矩阵W(每个一个,可以多达百个),当然这是不太可能实现的。我们看下下面的一个简单的三层神经网络:
第三层第k个节点的输出表达式如下(自己可以根据前向传播原理推导下,可以参考我的上一篇文章讲的很清楚https://blog.youkuaiyun.com/zhaojianting/article/details/80541732):
感觉是不是太复杂了,这只是三层的,按照目前百层网络,输出如果用一个表达式来表达我相信没有能看懂,或者说不可能用计算机来实现。所以后来人就改变了思路,神经网络的训练(或者说优化)就是找到各层参数矩阵让样本的经过神经网络的输出尽可能得接近真实值。这样问题就转变成了差误最小化问题(理想误差为0)。上面已经说了神经网络的输出不可能通过求解方程的方法获得,那么我们也不可能通过令误差等于0,然后求方程来获得。这样数学家(我猜得也可能是计算机专家)发明的类似于枚举的梯度下降算法(其它应该是贪心算法),梯度下降算法的原理大致是:首先随机初始化每层的参数矩阵w,然后可以算得与真实值的误差(