Lecture 3: Loss Functions and Optimization

最新推荐文章于 2022-01-23 16:55:41 发布

原创最新推荐文章于 2022-01-23 16:55:41 发布 · 269 阅读

·

1

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

CS231n 专栏收录该内容

14 篇文章

订阅专栏

本课程深入探讨了损失函数的概念及其在优化过程中的应用，包括SVM损失函数和Softmax损失函数的特点与区别。同时，还讨论了不同损失函数下权重初始化的影响，以及如何通过梯度下降等方法进行参数优化。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

CS231n

Lecture 3: Loss Functions and Optimization

上节课介绍了线性分类器，这节课介绍如何通过定义合适的loss函数（正如《统计学习方法》中介绍的统计学习三大要素之一的“策略”）并优化该loss得到合适的参数（“算法”）

loss

SVM loss/Hinge loss
$L (x, y) = \sum i \neq y max (0, s i - s y + 1)$ $L(x,y) = \sum_{i \ne y}{\max(0,s_i - s_y + 1)}$
直观解释是只有 $s_y \ge s_i + 1\quad \forall i \ne y$ 时 $L(x,y)$ 才为0，说明光是 $y = \underset{i}{\arg\max}\quad s_i$ 还不够，要有不小于1的裕量才行，这其实就是soft margin SVM。
Q: What happens to loss if car scores change a bit?
A: 第1、3列的loss发生相应的变化，但是第2列的不会变
Q2: what is the min/max possible loss?
A: 最小当然为0，最大可以为 $+\infty$
Q3: At initialization W is small so all s ≈ 0. What is the loss?
A: $n-1$
Q4: What if the sum was over all classes? (including j = y_i)
A: L += 1
Q5: What if we used mean instead of sum?
A: L /= (n - 1)
Q6: What if we used $L = \sum_{i \ne y}(\max(0,s_i - s_y + 1))^2$
A: loss增大
不带偏置项的SVM的解不唯一：任意可行解伸缩之后都是可行解 $\Rightarrow$ 正则化，Occam剃刀
正则化方式： $L^p,p \in \{2,1,+\infty\}$ , elastic net, dropout, batch normalization, stochastic depth,…
Softmax loss
$L = - log P (Y = y | X = x) = - log e s y \sum i e s i$ $L = -\log P(Y=y|X=x)=-\log \frac{e^{s_y}}{\sum_i e^{s_i}}$
Q: What is the min/max possible loss L_i?
A: min = 0当 $P(Y=y|X=x) = 1$ , max = $-\infty$ 当 $P(Y=y|X=x) = 0$
Q2: Usually at initialization W is small so all s ≈ 0. What is the loss?
A: $L \simeq -\log \frac{1}{n} = \log n$
比较二者
Q: Suppose I take a datapoint and I jiggle a bit (changing its score slightly). What happens to the loss in both cases?
A: SVM 要看score的分布，如果分布对正确分类有利，那么几乎没什么影响，否则会有影响；
Softmax $\mathrm{d}L=\nabla L^\mathrm{T}\mathrm{d}s = (\frac{e^s}{\sum e^s}-\mathbb{1}(y))^\mathrm{T}\mathrm{d}s$ 取决于输出的概率分布

Optimization

梯度下降
数值计算太繁重，用微积分计算解析式！
实际使用时用解析式计算，但是要用数值计算保证正确
全体数据同时优化计算量太大，用SGD，一般32/64/128一个batch

图像特征

目的是使数据映射到线性可分的空间
最简单的图像特征：Hue histogram
除此之外还有HoG（将图像分为 $8\times8$ 的区域，每个区域计算9个方向的梯度直方图），BoW（从训练集中提取随机patch进行聚类形成码本，对任意一张输入图像，分析其在码本上的分布）
CNN其实是在利用图像特征进行学习

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。