【自学】深度学习入门基于python的理论与实现 LESSON9 ＜误差反向传播法3＞

本文链接：https://blog.youkuaiyun.com/mzy20010420/article/details/126726934

前言

一、Affine/Softmax层的实现

1. Affine层

2. Softmax-with-Loss层

总结

前言

今天学习softmax层的实现

一、Affine/Softmax层的实现

1. Affine层

见往期文章：

https://blog.youkuaiyun.com/mzy20010420/article/details/126693852https://blog.youkuaiyun.com/mzy20010420/article/details/126693852

2. Softmax-with-Loss层

softmax层的输出如图所示：

神经网络中进行的处理有推理和学习两个阶段。推理通常不使用Softmax层，比如上图进行推理时，会将最后一个Affine层的输出作为识别结果。但是神经网络的学习阶段需要Softmax层。

下面实现Softmax层。由于这里也包含损失函数的交叉熵误差，因此称为SWL层，计算图如下图所示：

简易版如下图所示：

分析：

（1）假设进行三分类。softmax层将输入（a1, a2, a3)正则化，输出（y1, y2, y3)，交叉熵误差层接收（y1, y2, y3)和监督标签（t1, t2, t3)，从这些数据中输出损失L.

（2）神经网络学习的目的就是通过调整权重参数，使神经网络的输出y接近监督标签。因此必须将神经网络的输出与监督标签的误差高效地传递给前面的层，即上图所示y-t.

下面进行代码的实现：

import numpy as np

class SoftmaxWithLoss:
    def __init__(self):
        self.loss = None #损失
        self.y = None #softmax的输出
        self.t = None #监督数据
        
    
    def softmax(a):
        exp_a = np.exp(a)
        sum_a = np.sum(exp_a)
        soft = exp_a / sum_a
        
        return soft
    
    
    def cross_entropy_error(y, t):
        delta = 1e-7
        E = -np.sum(t * np.log(y + delta), axis = 1)
        
        return E
    

    def forward(self, x, t):
        self.t = t
        self.y = SoftmaxWithLoss.softmax(x)  
        self.loss = SoftmaxWithLoss.cross_entropy_error(self.y, self.t) 
        
        return self.loss
    
    
    def backward(self, dout=1):
        batch_size = self.t.shape[0]
        dx = (self.y - self.t) / batch_size
        
        return dx

分析：

（1）疑问：def backward(self, dout=1):这一句不理解，为什么要dout = 1

（2)batch_size = self.t.shape[0]:

shape的应用：

import numpy as np

k = np.matrix([[1, 2, 3, 4],
             [5, 6, 7, 8],
             [9, 10, 11, 12]])
print(np.shape(k))       # 输出（3，4）表示矩阵为3行4列
print(k.shape[0])        # shape[0]输出3，为矩阵的行数
print(k.shape[1])        # 同理shape[1]输出列数

结果：