本人的其他博客中提到了可以用矩阵求导的方法来运算,然后这里简单讲下。
首先,直接贴Ng老师的课后作业的课件(exercise3.pdf)
其实感觉挺巧的,虽然这里Ng老师给出来一个很完美的式子,一步就把gradient矩阵写出来了,但问题就是没把问题解释明白,换了个激活函数,以我这种人的智商,肯定要懵逼的。所以我给出一个更加具有一般性的证明,虽然最后的结果是一样的。
然后我给出我的结论,假设我们有100个training example,然后每个training example有3个feature,则
X是一个100*3的矩阵,X*theta为一个