目录
前言
今天学习softmax层的实现
一、Affine/Softmax层的实现
1. Affine层
见往期文章:
2. Softmax-with-Loss层
softmax层的输出如图所示:
神经网络中进行的处理有推理和学习两个阶段。推理通常不使用Softmax层,比如上图进行推理时,会将最后一个Affine层的输出作为识别结果。但是神经网络的学习阶段需要Softmax层。
下面实现Softmax层。由于这里也包含损失函数的交叉熵误差,因此称为SWL层,计算图如下图所示:
简易版如下图所示:
分析:
(1)假设进行三分类。softmax层将输入(a1, a2, a3)正则化,输出(y1, y2, y3),交叉熵误差层接收 (y1, y2, y3)和监督标签(t1, t2, t3),从这些数据中输出损失L.
(2)神经网络学习的目的就是通过调整权重参数,使神经网络的输出y接近监督标签。因此必须将神经网络的输出与监督标签的误差高效地传递给前面的层,即上图所示y-t.
下面进行代码的实现:
import numpy as np
class SoftmaxWithLoss:
def __init__(self):
self.loss = None #损失
self.y = None #softmax的输出
self.t = None #监督数据
def softmax(a):
exp_a = np.exp(a)
sum_a = np.sum(exp_a)
soft = exp_a / sum_a
return soft
def cross_entropy_error(y, t):
delta = 1e-7
E = -np.sum(t * np.log(y + delta), axis = 1)
return E
def forward(self, x, t):
self.t = t
self.y = SoftmaxWithLoss.softmax(x)
self.loss = SoftmaxWithLoss.cross_entropy_error(self.y, self.t)
return self.loss
def backward(self, dout=1):
batch_size = self.t.shape[0]
dx = (self.y - self.t) / batch_size
return dx
分析:
(1)疑问:def backward(self, dout=1):这一句不理解,为什么要dout = 1
(2)batch_size = self.t.shape[0]:
shape的应用:
import numpy as np
k = np.matrix([[1, 2, 3, 4],
[5, 6, 7, 8],
[9, 10, 11, 12]])
print(np.shape(k)) # 输出(3,4)表示矩阵为3行4列
print(k.shape[0]) # shape[0]输出3,为矩阵的行数
print(k.shape[1]) # 同理shape[1]输出列数
结果:
(3, 4)
3
4
(3)类中函数的互相调取:
见往期文章
https://blog.youkuaiyun.com/mzy20010420/article/details/126728756https://blog.youkuaiyun.com/mzy20010420/article/details/126728756(4)反向传播时,将要传播的值除以批的大小(batch_size)后,传递给前面的层的是单个数据的误差。
总结
(1)通过使用层进行模块化,神经网络中可以自由地组装层。
(2)通过比较数值微分和误差反向传播法的结果,可以确认误差反向传播法是否正确。