cs231nLesson1-3

原创于 2017-12-10 16:55:25 发布 · 368 阅读

0 ·

CC 4.0 BY-SA版权

cs231n 专栏收录该内容

5 篇文章

订阅专栏

本文档总结了CS231n课程的学习笔记及作业，涵盖了最近版本的内容更新。探讨了识别难度因素，介绍了最近邻方法及其在深度学习框架中的应用限制，详细解析了线性分类器的工作原理及实现过程。

cs231n每半年更新一次，最近看了新的版本，整理了下之前学习的笔记和作业。

.Diffuculty of Recogonition:

illumination, deformation, Background Clutter, Intraclass variation,etc..

1.Nearest Neighbor Method（现在深度学习框架内很少使用）

train：O(1)
test:O(n)
test时将待估计的图片image_e与train所有的N张数据比较，选距离最近的一张image_i，那么train_i对应的label就是待估计的图片的label。当然实际常常使用KNN算法，在K张最近(这个近可以用各类距离来衡量，也可以用自定义的方式来衡量)的图片中，如果某个label的图片数量最多，则image_e的label就是这个label。
如果训练集太大，将test图像与每个traing数据计算数据量太大，则可使用pproximate Nearest Neighbor library （e.g. FLANN）
如何选K？

交叉验证来训练：最好将训练数据分N段，每次选择一部分作为为traing, 一部分（往往是一段）作为validataion，在validataion中尝试不同的K值（分一部分作为validatiaon，相当于在测试过程中不断做：test-train-test的过程）

2.Linear Classification

f (x, W) = W x + b ； (1)

$f(x,W) = Wx+b；(1)$

将任何输入和输出之间的关系视为一个函数时，深度学习为了拟合非线性函数，基本架构是一层线性分类器+一层非线性函数(Relu，softmax,etc..)
（以下都以cifar-10为例）
f的值是一个10x1的向量，分别表示这10个label的score高低，这10维的向量中哪个元素最高，就意味着这个图像x属于该元素对应的类别。

2.1 loss（cost, objective） function

loss function的结果作为评价如今模型W等参数好坏/是否收敛的指标。其中loss function有很多形式，具体可参见：参见我的文章机器学习中常用的loss function

2.2 weight W and bias b

从几何上，W的作用可以解释为：（如果将image的像素压栈成一列，则如cafar-10的图像都在3072维的空间上）改动(1)式子中的weight任一行，相当于将图像在图像空间中旋转一个不同的角度，如图：

这里写图片描述
（该图是将图像空间”压”到二维平面上）

car的红色箭头表示score增长的方向，红线以左是score为0的部分。
如果label有10个，则W(10x3072)相当于10个不同的高纬度直线，各自将3072维度的空间切割开，使得不同的label对应的图像在直线的一边。

从模板上，W可以解释为：
W的每一行都是与相应的image内积，而W是归一化的，我们知道，当两个向量a,b的模都固定且b固定时，a平行于b时,也即是a的各维参数分布和b相同，a*b=|a||b|cosr有最大的值。从图中也可以发现，对应分类的模板具有和类别模糊相似的特征，比如大约能看出这是汽车，马等：
这里写图片描述

而b的作用，在于平移高纬直线，以免如果image的图像像素值为0时获得score为0.
常见的做法是将w,b合为一个矩阵:用齐次表达

W' = [W; b] * [x; 1] T

$W'= [W;b]*[x;1]^T$ ，这样可以直接估计一个矩阵W‘满足f = W’x。

2.3 regularization

如果把W看做一个模板的话，在整个数据集上，nW和W的效果是一样的。我们可以归一化数据集，同样也可以归一化W。常见的做法用W的L2范式：

R (w) = \sum k \sum l W 2 k, l

$R(w) = \sum_k\sum_lW_{k,l}^2$
在所有loss function小项之后，加一个这个正则项：

L = 1 N \sum i L i + λ R (W)

$L = \frac{1}{N}\sum_i L_i+\lambda R(W)$

所谓正则，就是纠正、调整的意思。
W正则化还有个好处是更倾向考虑到输入的所有维度。对于只考虑一小部分维度的W和考虑到所有维度（当然对应权重会更小）的W，当Wx结果一样时，后者的正则项会更小。这样也有助于减少overfitting.
而上文的 $\lambda$ 是数据项（前边的项）和正则项之间进行权衡，
所以以SVM loss的最终版评价W的损失函数为：
这里写图片描述