Machine Learning 梳理总结 L0~L6_l0到l6-优快云博客

本文链接：https://blog.youkuaiyun.com/weixin_40167621/article/details/83044554

本文梳理了李宏毅教授的Machine Learning课程，包括机器学习介绍、回归、误差来源、梯度下降、分类等内容。介绍了线性回归、损失函数、梯度下降法、过拟合和正则化等概念，以及随机梯度下降和贝叶斯分类的基本思想。通过实例解释了机器学习中的关键步骤和问题，如如何找到最佳函数、如何评估函数的好坏以及如何处理训练和测试数据的误差。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

9月份比较系统的看了李宏毅教授的Machine Learning课程，这个月开始就没太多看ML,DL的东西。下周有一个deep learning project的due，借着机会重新理一下。
下面按照之前笔记加上自己的理解做个梳理
要是发现我理解错了记得告诉我鸭

Lecture0: 机器学习介绍

Machine Learning = Looking for a function, 对于一些复杂现象，当人们靠自己找不到一些规律的时候，用机器学习可以找到事物见那个复杂的方程。在很多领域都有应用。

比如：
语音识别：人们不是对于所有的声音都能给一个确定的tag。
股票：基于过往数据，可以做出来一条回归曲线进行预料。

机器学习基本分3步：

define a set of function 找规律
goodness of functon 规律的好坏
pick the best function 在一堆候选规律里找到最好的那个

Lecture1: Regression

这章是神经网络的基础
很多章内容都用精灵宝可梦的例子来加以解释。这是个非常好的例子，因为pokemon有很多可视化属性，比如cp值，属性，战斗力等。本章目的是想根据一只宝可梦的属性得到它进化后的cp值来决定是否要花精灵球来抓这只pokemon。
在这里插入图片描述首先给一个input: 一只宝可梦的相关信息 $X(X_{cp},X_s,X_{hp},X_w)$ 。
output: 我们想要得到进化后的cp值。

step1: define a set of function
根据case选择不同的function，对于这个case，我们只需要知道现有的 $X_{cp}$ 去预测进化后的 $X_{cp}$ ，这样就是个简单的线性问题。只需要y=aX+b的简单线性方程即可。so… 代入了几组输入之后，如下：
在这里插入图片描述
每一个pokemon都有一个自己的function，自己的参数，我们需要找到是一个可以让每个pokemon都能预测的大model。
Linear model
通式可写成： $y=b+Σωixiy=b+\Sigma\omega _ix_i$
$x_i$ : 输入者x的各种属性，一般是一个向量或者矩阵。
$w_i$ : weight，权重，后面会有说。
$b$ : bias, 偏差。

step2: goodness of function
怎样从上述function set中找到好的呢？
我们将本来的值减去预测的值，之间的差值越小说明函数越好。
定义一个新的function：loss function，损失函数。
Input: a function
Output: how bad it is
$L(f)=L(ω,b)=∑n=110(y^n−(b+ω⋅xcpn))2L(f)=L(\omega,b)=\sum_{n=1}^{10} (\hat y^n -(b+\omega \cdot x_{cp}^n))^2$

step3: Best function
找到让 $L (f)$ 最小的function就是最好的：
$f∗=argminL(f)=argmin∑n=110(y^n−(b+ω⋅xcpn))2f^* = argminL(f)=argmin \sum_{n=1}^{10} (\hat y^n -(b+\omega \cdot x_{cp}^n))^2$
这个例子的function 很简单，用二元次方程就可解，但是现实中，有几百个参数，loss function是几百元的，怎么解？

很重要的一点

一直会混搅一件事情，就是只要有一组数据，这个function就会一直走直到L趋近于0。上面的 $∑\sum$ 意思是把所有数据的l加起来在进行求导，一旦参数比较多了，其实量非常的大。这也是后面为什么会有stochastic gradient descent以及deep learning的时候会引入bp算法。是因为gd计算量实在太大了。

引出Gradient Descent,只要 $L$ 可以微分，都可以用这个解。假设只有一个参数 $ω\omega$ ，如何求gradient descent?
1.随机选取一个初始的点 $ω0\omega^0$
2.计算 $dLdω∣ω=ω0\frac{dL}{d\omega}|_{\omega = \omega ^{0}}$ ,在这就是算切斜率的意思，如果值为负数->increase $ω\omega$ ；如果为正数->decrease $ω\omega$ 。
走这一步是走多远呢？step size取决于两件事:
第一件事，微分值 $dLdω\frac{dL}{d\omega}$ 有多大，微分值越大走的越多。
第二件事，添加一个常数项 $η\eta$ , “learning rate”: $w0−ηdLdω∣ω=ω0w^0- \eta \frac{dL}{d\omega}|_{\omega=\omega^0}$ —> $ω1\omega^1$
3.计算 $dLdω∣ω=ω1\frac{dL}{d\omega}|_{\omega = \omega ^1}$ ,并且接着更新 $ω2\omega^2$