Deep Learning Notes - 1.2深度学习基础

最新推荐文章于 2024-06-24 16:20:40 发布

原创最新推荐文章于 2024-06-24 16:20:40 发布 · 363 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#Deep Learning

Deep Learning Notes 专栏收录该内容

4 篇文章

订阅专栏

本文介绍深度学习基础知识，包括二进制分类任务中的图片数据表示方法，Logistic回归模型原理及其损失函数、成本函数定义。同时，还介绍了梯度下降算法实现参数更新的方法，并给出高度向量化Python伪代码。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Deep Learning Notes - 1.2深度学习基础

二进制分类 Binary Classification

例如：判断图片中是否含有猫

图片为rbg模式，大小为 $width \times height$ ，使用矩阵（列向量）存储如下：

x = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ M a t_R 1, 1 M a t_R 1, 2 . . . M a t_G 1, 1 M a t_G 1, 2 . . . M a t_B 1, 1 M a t_B 1, 2 . . . ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ n x \times 1

$x=\left[ \begin{matrix} Mat\_R_{1,1}\\ Mat\_R_{1,2}\\ ...\\ Mat\_G_{1,1}\\ Mat\_G_{1,2}\\ ...\\ Mat\_B_{1,1}\\ Mat\_B_{1,2}\\ ... \end{matrix} \right] _{n_x \times 1}$

其中 $n_x=3 \times width \times height$ ，并将 $x$ 作为输入。

输出:

y = {\begin{array}{lr} 0 图 片 中 有 猫 \\ 1 图 片 中 无 猫 \end{array}

$y=\left\{ \begin{array}{lr} 0\ \ 图片中有猫\\ 1\ \ 图片中无猫 \end{array} \right.$

任意一个实例可以表示为 $(x,y)$ ， $x\in\mathbb{R}^{n_x}$ ， $y\in\{0,1\}$ ，矩阵化之后为：

这里写图片描述

Logistic 回归

给定 $x$ 的前提下，令 $\hat{y}=P(y=1|x)，\hat{y}\in(0,1)$

输出： $\hat{y}=\sigma(w^Tx+b)$ ， $x\in\mathbb{R}^{n_x}$ ， $w\in\mathbb{R}^{n_x}$ ， $b\in\mathbb{R}$

其中 $\sigma(z)=\frac{1}{1+e^{-z}}$ ，图像如下：

这里写图片描述

Loss 函数：

L (y^, y) = - [y log y^+ (1 - y) log (1 - y^)]

$L(\hat{y},y)=-[y\log\hat{y}+(1-y)\log(1-\hat{y})]$

Cost 函数：

J (w, b) = 1 m \sum i = 1 m L (y^(i), y (i)) = - 1 m \sum i = 1 m [y (i) log y^(i) + (1 - y (i)) log (1 - y^(i))]

$J(w,b)=\frac{1}{m}\sum^{m}_{i=1}L(\hat{y}^{(i)},y^{(i)})=-\frac{1}{m}\sum^{m}_{i=1}[y^{(i)}\log \hat{y}^{(i)}+(1-y^{(i)})\log(1-\hat{y}^{(i)})]$

其中的 $\log$ 均以 $e$ 为底。

梯度下降 Gradient Descent

计算 $(w,b)$ 来使得 $J(w,b)$ 数值最小，以下是一次梯度下降公式：

w = w - α \partial J ( w , b ) \partial w

$w = w-\alpha \frac{\partial J(w,b)}{\partial w}$

b = b - α \partial J ( w , b ) \partial b

$b = b-\alpha \frac{\partial J(w,b)}{\partial b}$

其中， $\alpha$ 为学习率。

此后，不再详细区分 $d$ 和 $\partial$ 符号。

计算图

例如：

J (a, b, c) = 3 (a + b c)

$J(a,b,c)=3(a+bc)$

正向计算数值和反向计算导数的过程如下：

这里写图片描述

Logistic回归的梯度下降

$z=w^Tx+b$

$\hat{y}=a=\sigma(z)$

$L(a,y)=-[y\log a+(1-y)\log(1-a)]$

这里写图片描述

用于 $m$ 个样例，并高度向量化：

这里写图片描述

Python伪代码为：

# 高度向量化的目的是
# 减少for循环
# 以加快代码的运行速度
import numpy as np

for i in range(1000):   # 梯度下降1000次
    # 计算 a (y hat)
    Z = np.dot(W.T, X) + b
    A = sigmod(Z)


    dz = A - Y
    dw = 1/m * np.dot(X, dz.T)
    db = 1/m * np.sum(dz)

    w -= alpha * dw
    b -= alpha * db

Python Broadcasting

[\begin{matrix} 1 \\ 2 \\ 3 \end{matrix}] + 10 = [\begin{matrix} 1 \\ 2 \\ 3 \end{matrix}] + [\begin{matrix} 10 \\ 10 \\ 10 \end{matrix}]

$\left[ \begin{matrix} 1\\ 2\\ 3 \end{matrix} \right] +10= \left[ \begin{matrix} 1\\ 2\\ 3 \end{matrix} \right] + \left[ \begin{matrix} 10\\ 10\\ 10\\ \end{matrix} \right]$

[142536] + [102030] = [142536] + [101020203030]

$\left[ \begin{matrix} 1& 2& 3\\ 4& 5& 6 \end{matrix} \right] + \left[ \begin{matrix} 10& 20& 30 \end{matrix} \right] = \left[ \begin{matrix} 1& 2& 3\\ 4& 5& 6 \end{matrix} \right] + \left[ \begin{matrix} 10& 20& 30\\ 10& 20& 30 \end{matrix} \right]$

[142536] + [1020] = [142536] + ⎡ ⎣ ⎢ 101010202020 ⎤ ⎦ ⎥

$\left[ \begin{matrix} 1& 2& 3\\ 4& 5& 6 \end{matrix} \right] + \left[ \begin{matrix} 10\\ 20 \end{matrix} \right] = \left[ \begin{matrix} 1& 2& 3\\ 4& 5& 6 \end{matrix} \right] +\left[ \begin{matrix} 10& 20\\ 10& 20\\ 10& 20 \end{matrix} \right]$

Some Coding Techniques

记得创建行向量np.random.randn( (5,1) )、

列向量np.random.randn( (1,5) )，

而不要使用np.random.randn( 5 )
多使用reshape()函数没有坏处
尽可能多的使用assert( a.shape()==(5,1) )来保证程序的健壮性