求MSE原理

wmz13248

已于 2022-12-02 17:53:25 修改

阅读量397

点赞数

分类专栏：实用文章标签：人工智能

于 2022-12-02 17:52:33 首次发布

原文链接：https://zhuanlan.zhihu.com/p/549552812

版权

实用专栏收录该内容

40 篇文章

订阅专栏

机器学习分为三个步骤：

构建函数

2. 定义loss（也是函数）

最后一行：会用cross entropy

最后一行：会用cross entropy

3.优化

argminF(x,y) 就是指当 F(x,y) 取得最小值时,变量 x,y 的取值

每一步的大小取决于：斜率的大小，自己设定的超参数学习率

是负号才能保证，L随着w的增大而减小，此时dL/dw斜率是负的，所以w才能增大

gradient decent结束更新循环的方式：1. 达到上限自己设置的次数，2. 微分值dL/dw为0-->缺点：可能停在loss局部最小值处，而不是全局(global minimum)

举个例子！loss是0.48k

举个例子！loss是0.48k

分析结果：

但是可以看出实际数据是有周期性的，定期会有峰谷。修改模型的时候要基于对此问题的理解：domain knowledge

Linear model

可能x和y之间有很复杂的关系，但对linear model来说，关系就是一条直线。。

怎么获得蓝色曲线？

下面可以逼近上面

下面可以逼近上面

原理和正常理解是一样的，先是网络层输出y=b+wx，再加一个激活函数，z=sigmoid(y)=sigmoid(b+wx)

需要很多sigmoid逼近的时候，就会产生各种各样的sigmoid

sigmoid越多，能够逼近的越复杂（越像曲线）

把各种sigmoid function组合在一起，就可以获得各种各样逼近于期望曲线的piecewise linear function

3-->4可以用多个feature，不止用一个x

3-->4可以用多个feature，不止用一个x

改写了Step1

改写了Step1

有全局梯度下降和小批量梯度下降

epoch和update的区别

epoch和update的区别

为啥Sigmoid去拼凑各种曲线（先拼出一个Hard sigmoid）？

不是必须的！两段ReLU也可以凑出Hard sigmoid

编辑于 2022-08-04 06:23

机器学习

李宏毅 (演员)

机器学习（周志华著）（书籍）

赞同添加评论喜欢收藏申请转载

赞同

写下你的评论...

转载自：https://zhuanlan.zhihu.com/p/549552812

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。