【ML】 基本概念

Machine Learning ~ looking for function

1. different types of functions

  • Regression: output a scalar

  • Classification: classes → correct one

  • 黑暗大陆:structured learning - 创造

2. how to find the function - training data

  1. function with unknown parameters - Model
    y = b + w x 1 y = b+wx_1 y=b+wx1
    based on domain knowledge

    w and b are unknown parameters(learned from data)

    x1 - features

    w - weight

    b - bias

  2. Define Loss from Training data

    Loss is a function of parameters. Loss means how good a set of values is.
    L ( b , w ) = Σ 1 n e n L(b,w)=\Sigma\frac{1}{n}e_n L(b,w)=Σn1en
    e: 预计值与真实值(Label)间的差距,计算方法很多

    • MAE: mean absolute error
      y = ∣ y − y ^ ∣ y = |y-\widehat{y}| y=yy

    • MSE: mean square error

  3. Optimization

    Gradient Descent

    image-20230103161403776
    • hyperparameters

    直到微分为0或你已经失去耐心

    问题非常明显:并未找到真正的global minima而是停留在一个Local minima.

    但事实上,Local minima是个伪命题,后续详谈。

    推广至两个参数:

    image-20230103161906471

    直观来看

    image-20230103162128862

3. unseen during training

观察到7天一循环 于是

image-20230103172614074

这样的模型叫做Linear models. 这样简单的线性关系有Model Bias,我们需要更flexible的模型

All piecewise linear curves =

image-20230104165211017

piecewise linear curve(hard Sigmoid)可以用来逼近continuous curve

image-20230104170421424

x1趋近正无穷,y趋近于c;x趋近于负无穷,y趋近于0.

不同的w c b造出不同的sigmoid function,叠加出复杂的piecewise linear curve,从而逼近各种曲线

image-20230104170810137

于是我们可以通过如下含有不同参数的公式,来逼近

image-20230104171037737

推广至多天(more features)

image-20230104190306798

4. Back to ML Framework

4.1 Step1: function with unknown

每个 i 表示蓝色的function(hyperparameter),j表示features

image-20230104191400806

image-20230104191600846

image-20230104191803146

image-20230104191847102

综上,用线性代数的矩阵表示

image-20230104192025743

把unknown parameters拉直拼成一个长向量

image-20230104192538112

4.2 Step2: define loss from training data

只不过现在Loss的参数多了
L ( θ ) L(\theta) L(θ)
Loss means how good a set of values is.

image-20230104193746002

4.3 step3: optimization

gradient 求梯度,并更新参数

image-20230104194549272

image-20230104194733599

直到不想做了/得到零向量(实际上不太可能)

image-20230104195044320

至于为什么要分成一个一个的batch(多少个也是hyperparameter),后续详谈

4.4 其他

4.4.1 Sigmoid → ReLU

两个ReLU叠加起来成为一个Hard sigmoid

image-20230104200123169

image-20230104200404439

(max效果较好,原因以后详谈)

4.4.2 more variety of models

反复多做几次(几次,又是一个hyperparameter)

image-20230104200914251

5. 神经网络 → 深度学习?!

image-20230105202441532

image-20230105202533671

overfitting: Better on training data, worse on unseen data.

image-20230105203027836

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

浮光 掠影

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值