DataWhale-note之深度学习

原创已于 2024-09-04 20:45:46 修改 · 1.7k 阅读

41 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习 #机器学习

于 2024-08-28 19:04:42 首次发布

DatawhaleAI夏令营笔记 X 李宏毅苹果树

Task1

1. 机器学习基础

1.1内涵

机器具备学习的能力，即让机器具备找一个函数的能力

1.2类别

1.2.1回归

通过函数输出一个数值

如预测未来某个时间的PM2.5

1.2.2分类

让机器做选择

如判断邮件是否为垃圾邮件

1.2.3结构化学习

产生一个有机构的物体

如让机器画一张画

1.3找函数的步骤

1.3.1 写出一个带有未知参数的函数

如 y = wx + b

x: Feature

w: weight

b: bias

1.3.2定义损失

1.3.2.1损失函数

L = L(b,w)

1.3.2.2平均绝对误差（MAE)

$e = ∣ y ˆ - y ∣$

1.3.2.3均方误差（MSE）

$e = (y ˆ - y) 2$

1.3.3最优化

1.3.3.1梯度下降

在这里插入图片描述

假设这里有一个损失函数

L = L（w）

随机假设一个点w0，可以计算函数在该点处的微分
$w_{1} \leftarrow w_{0} - \eta \frac{\partial L}{\partial w} |_{w=w_{0}}$

从中可以发现斜率绝对值越大，移动的步伐越大，斜率为正向左移，为负向右移，不断迭代可以找到一个极值点，称为局部最小值，但不一定是全局最小值，这与w0有关

η：学习率

影响步伐大小，由自己设定，称为超参数

Task2

2.线性模型

2.1概念

把输入的特征 x 乘上一个权重，再加上一个偏置得到预测的结果

2.2HardSigmoid

在这里插入图片描述

特性：Hard Sigmoid 函数的特性是当输入的值，当 x 轴的值小于某一个阈值（某个定值）的时候，大于另外一个定值阈值的时候，中间有一个斜坡。所以它是先水平的，再斜坡，再水平的。

2.3分段线性曲线

但是如果只是单纯的线性模型，函数终归只是一条斜线，无法变得曲折，因此我们引入分段线性曲线

通过分段线性曲线，我们可以将折线图像化作若干HardSigmod函数的和

同理对于曲线图像，我们可以在曲线上取若干个点，化曲为直

在这里插入图片描述

2.4Sigmoid

HardSigmoid函数并不是很好写，因此我们可以用Sigmoid函数来逼近

sigmod：

$c\frac{1}{1+e^{-(b+wx)}}$

在这里插入图片描述

因此y可以写作

$\sum_{i}^{n}c_{i}\frac{1}{1+e^{-(b_{i}+w_{i}x)}}$

2.5扩展到多个特征

即由前一天扩展到前j天

在这里插入图片描述

以前三天为例,i表示目标函数由多少个sigmoid函数组成，j表示参考前多少天

$r_{1} = b_{1} + w_{11}x_{1} + w_{12}x_{2} + w_{13}x_{3}\\ r_{2} = b_{2} + w_{21}x_{1} + w_{22}x_{2} + w_{23}x_{3}\\ r_{3} = b_{3} + w_{31}x_{1} + w_{32}x_{2} + w_{33}x_{3}$

化为矩阵
$\begin{bmatrix} r_{1}\\ r_{2}\\ r_{3} \end{bmatrix}= \begin{bmatrix} b_{1}\\ b_{2}\\ b_{3} \end{bmatrix}+ \begin{bmatrix} w_{11}\ w_{12}\ w_{13} \\ w_{21}\ w_{22}\ w_{23}\\ w_{31}\ w_{32}\ w_{33} \end{bmatrix} \begin{bmatrix} x_{1}\\ x_{2}\\ x_{3} \end{bmatrix}$
即
$\mathbf{r = b + Wx}$
令
$\mathbf{a = \sigma(r)}$
有
$\mathbf{c^{T}a}$