BP算法

最新推荐文章于 2022-11-04 19:51:34 发布

原创最新推荐文章于 2022-11-04 19:51:34 发布 · 405 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习 #算法

BP算法

同时构造w和b

一种比较方便的方法是将偏置放在w的第一个.

def initialize_wb(lay_in, lay_out, epsilon=1.0):
	# 其中wb[0]就是偏置，因此要有 1 + lay_in
    wb = np.random.rand(lay_out, 1 + lay_in) * 2 * epsilon - epsilon
    return wb

主要代码

def main():
    x, y = get_data()

    wb1 = initialize_wb(INPUT_LAYER_SIZE, HIDDEN_LAYER_SIZE)
    wb2 = initialize_wb(HIDDEN_LAYER_SIZE, OUT_LABELS_SIZE)

    f = tanh
    f_gradient = tanh_gradient

    loss = []

    for epoch in range(epoch_time):
        h_total = np.zeros((num_observations, 1))  # 所有样本的预测值, m*1, probability
        # D_1 = np.zeros(wb1.shape)  # Δ_1
        # D_2 = np.zeros(wb2.shape)  # Δ_2
        for t in range(num_observations):
            # 前向传播计算预测值
            a_1 = np.vstack((np.array([[1]]), x[t:t + 1, :].T))  # 垂直堆叠成[[1],[当前x]]的列向量
            z_2 = np.dot(wb1, a_1)  # 2*1
            a_2 = np.vstack((np.array([[1]]), f(z_2)))  # 3*1
            z_3 = np.dot(wb2, a_2)  # 1*1
            a_3 = f(z_3)
            h = a_3  # 预测值h就等于a_3, 1*1

            # 后向传播梯度下降计算误差
            h_total[t, 0] = h
            delta_3 = h - y[t:t + 1, :].T  # 最后一层每一个单元的误差, δ_3, 1*1
            delta_2 = np.multiply(np.dot(wb2[:, 1:].T, delta_3),
                                  f_gradient(z_2))  # 第二层每一个单元的误差（不包括偏置单元）, δ_2, 2*1
            # D_2 = D_2 + np.dot(delta_3, a_2.T)  # 第二层所有参数的误差, 1*3
            # D_1 = D_1 + np.dot(delta_2, a_1.T)  # 第一层所有参数的误差, 2*3
            wb2 = wb2 - learning_rate * np.dot(delta_3, a_2.T)
            wb1 = wb1 - learning_rate * np.dot(delta_2, a_1.T)

        # 如果使用D_1和D_2的话是到最后再调整参数，注意要用均值
        # wb1 = wb1 - learning_rate * (1.0 / num_observations) * D_1  # 第一层参数的偏导数，取所有样本中参数的均值，没有加正则项
        # wb2 = wb2 - learning_rate * (1.0 / num_observations) * D_2

        # 均方误差
        J = (1.0 / num_observations) * np.sum((y - h_total) ** 2)
        # 计算损失 交叉熵
        # J = (1.0 / num_observations) * np.sum(-y * np.log(h_total) - (np.array([[1]]) - y) * np.log(1 - h_total))
        loss.append(J)

        if epoch % 100 == 0:
            print("epoch: %s, lost: %s, " % (epoch, J))
            # print(h_total.reshape(num_observations))
            if epoch == epoch_time - 1:
                plt.plot(x, h_total)

    # plt.plot(range(epoch_time), loss)
    # plt.plot(x, last_out)
    plt.plot(x, y)
    plt.show()

检查方法

首先检查输入与输入的维度是否正确

	# x = np.linspace(0, 500, num_observations) 一维的
	x = np.linspace(0, 0.5, num_observations).reshape((num_observations, 1)) # 通过reshap编程二维的，同时y也会编程二维的
    # f(x)=sin6(5πx)
    y = np.sin(5 * np.pi * x) ** 6

更换激活函数

比如此次如果使用sigmoid函数，是得不到结果的。

# sigmoid和tanh两个激活函数及其导数。
def sigmoid(x):
    return 1.0 / (1.0 + np.exp(-x))


def sigmoid_gradient(z):
    g = np.multiply(sigmoid(z), (1 - sigmoid(z)))
    return g


def tanh(x):
    return np.tanh(x)


def tanh_gradient(x):
    #  tanh函数的导数
    return 1 - np.tanh(x) * np.tanh(x)