深度学习与计算机视觉系列(4)_最优化与随机梯度下降

最新推荐文章于 2024-09-02 21:02:11 发布

龙心尘

最新推荐文章于 2024-09-02 21:02:11 发布

阅读量1.8w

点赞数 4

CC 4.0 BY-SA版权

分类专栏：计算机视觉机器学习文章标签：计算机视觉深度学习数据挖掘机器学习 svm

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/longxinchen_ml/article/details/50178845

本文介绍了最优化的过程，特别是针对损失函数最小化的策略，包括随机搜寻、随机局部搜索和梯度下降。通过可视化损失函数，展示了在不同维度上的变化。文章探讨了随机梯度下降在实际应用中的问题，如计算梯度的数值方法和解析方法，并解释了在深度学习中常用的Mini-batch梯度下降法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

作者：寒小阳 && 龙心尘
时间：2015年12月。
出处：
http://blog.youkuaiyun.com/han_xiaoyang/article/details/50178505
http://blog.youkuaiyun.com/longxinchen_ml/article/details/50178845
声明：版权所有，转载请联系作者并注明出处

1. 引言

上一节深度学习与计算机视觉系列(3)_线性SVM与SoftMax分类器中提到两个对图像识别至关重要的概念：

用于把原始像素信息映射到不同类别得分的得分函数/score function
用于评估参数W效果(评估该参数下每类得分和实际得分的吻合度)的损失函数/loss function

其中对于线性SVM，我们有：

得分函数 $f(x_i, W) = W x_i$
损失函数 $L = \frac{1}{N} \sum_i \sum_{j\neq y_i} \left[ \max(0, f(x_i; W)_j - f(x_i; W)_{y_i} + 1) \right] + \alpha R(W)$

在取到合适的参数W的情况下，我们根据原始像素计算得到的预测结果和实际结果吻合度非常高，这时候损失函数得到的值就很小。

这节我们就讲讲，怎么得到这个合适的参数W，使得损失函数取值最小化。也就是最优化的过程。

2. 损失函数可视化

我们在计算机视觉中看到的损失函数，通常都是定义在非常高维的空间里的(比如CIFAR-10的例子里一个线性分类器的权重矩阵W是10 x 3073维的，总共有30730个参数 -_-||)，人要直接『看到』它的形状/变化是非常困难的。但是机智的同学们，总是能想出一些办法，把损失函数在某种程度上可视化的。比如说，我们可以把高维投射到一个向量/方向(1维)或者一个面(2维)上，从而能直观地『观察』到一些变化。

举个例子说， $我们可以对一个权重矩阵W(例如CIFAR-10中是30730个参数)，可以找到W维度空间中的一条直线，然后沿着这条线，计算一下损失函数值的变化情况$ 。具体一点说，就是我们找到一个方向

最低0.47元/天解锁文章

200万优质内容无限畅学

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。