
CS231n
我喜欢你就像
计算机视觉/深度学习 研究生
展开
-
CS231n学习笔记——线性分类器
CS231n学习笔记——线性分类器 CS231n课程使用的是CIFAR-10数据集,其中有60000张32x32的彩色图像,平均分为10个类,其中50000张为训练集,10000张为测试集。 线性分类器(linear classifier)将处理输入的每一张图片(32x32x3=3072个值),把它展开成一个3072x1项的行向量x,所训练的线性分类器的作用就是训练出一个10x3072的矩阵W,使...原创 2019-03-08 21:10:15 · 441 阅读 · 0 评论 -
CS231n学习笔记——损失函数
CS231n笔记——损失函数 从上一节的线性分类器角度出发,设定一个函数,以分类器的权重W作为输入,定量评估W的好坏,即为损失函数。然后找到一种可行方式,在W的可行域里找到一个最合适的W,使损失函数最小——优化问题 多分类器SVM损失函数 s是分类器的预测分数,yi是这个样本正确分类的标签。图中式子Sj-Syi+1意思是其他标签的分数减去正确标签的分数值加1,然后在这个值和0之间取最大值,作为l...原创 2019-03-09 13:24:08 · 564 阅读 · 0 评论 -
CS2321n学习笔记——激活函数、数据预处理、权重初始化
CS2321n学习笔记——激活函数 接下来要学的东西:训练神经网络 刚开始如何建立神经网络 选择什么样的激活函数 怎样做数据预处理 权重初始化、正则化,梯度检查 如何监控训练过程 如何选择参数的更新规则 超参数优化 模型评估,模型合成 sigmoid函数 sigmoid函数曾经一度非常流行,但是它有三个严重缺点 1.饱和神经元将使梯度消失 当x=-10时,接近负饱和区,它的导数非常接近0,所以...原创 2019-03-15 12:05:31 · 784 阅读 · 0 评论 -
CS231n学习笔记——优化、梯度
CS231n学习笔记——优化、梯度 多元情况下生成的导数叫做梯度,所以梯度是偏导数组成的向量,有和x一样的形状。梯度中的每个元素表示每个相关方向上函数的斜率。 计算梯度的方法——有限差分 在参数W的每一项做一点微小的改变(0.0001),观察loss的变化情况,然后计算出针对这一项的偏导数。以此类推直到算出整个梯度。但是在神经元数量很大时,这种数值导数的梯度计算方法非常慢,所以在应用中优先使用解...原创 2019-03-11 12:28:40 · 650 阅读 · 0 评论 -
CS231n学习笔记——反向传播
CS231n学习笔记——介绍神经网络、反向传播 计算图 计算图就是用来 表示任意函数的图,图中的节点表示要执行的每一步计算, 图中R(W)是正则项。 一旦能用计算图来表示一个函数,那么就能使用所谓的反向传播技术递归地调用链式法则来计算计算图中每个变量的梯度。 可见,反向传播就是沿着计算图从输出端开始,对总结果的loss一路求导或者求偏导回到输入的变量,这样求出来的数值组合在一起就是这一次的梯度...原创 2019-03-11 16:21:09 · 617 阅读 · 0 评论 -
CS231n学习笔记——介绍神经网络、卷积神经网络
CS231n学习笔记——介绍神经网络、卷积神经网络 ———————————————————————————————————————————— 神经网络 之前提到的线性分类器训练的重点在权重W上,但是只要将W和非线性函数(例如图中的max函数)组合并连接在一起,就组成了非线性的分类器——神经网络。 这些接在矩阵相乘操作之后的非线性函数叫做激活函数,以下是几种常见的激活函数: 每种不同的激活函数都有...原创 2019-03-12 17:10:05 · 722 阅读 · 0 评论 -
CS2321n学习笔记——卷积和池化
CS2321n学习笔记——卷积和池化 卷积层和普通的全连接层面的最大差别就是,它可以保全空间结构 用之前提到的例子继续说明,假如输入的图片尺寸是32x32x3的,这里使用一个5x5x3的卷积核来进行运算,具体步骤是这个卷积核在这个图片结构上滑动,可以理解为5x5的滤波器在32x32的矩阵上滑动一样(在这副图上可以理解成蓝色的方体在粉色的方体内部游走滑动),后面的x3是RGB三个通道层,是数据的深...原创 2019-03-12 17:11:56 · 596 阅读 · 0 评论 -
CS231n学习笔记——批量归一化(Batch Normalization)、监视训练
CS231n学习笔记——批量归一化(Batch Normalization) 想要保持单位高斯激活,那么就需要做批量归一化,即在神经网络中额外加入一层,以使得中间的激活值均值为0方差为1。 如果我们想要正确的激活单位高斯函数,我们可以取目前处理的批数据的均值,利用均值和方差来进行归一化,如果我们要在训练的每一层都保持良好的高斯分布,就需要进行批量归一化。而且需要它能够微分,这样才能在梯度反向传播...原创 2019-03-22 15:29:09 · 1164 阅读 · 0 评论 -
CS231n学习笔记——SGD、AdaGrad、RMSProp、Adam
CS231n学习笔记——更好的优化算法 SGD的缺点: 优化的轨迹会如图所示,因为很多函数的梯度方向并不是直接朝向最小值的,所以沿着梯度前进的时候可能会来回反复。这个问题在高维空间中更加普遍, 而且SGD很容易陷入局部最小值 而且在mini batch训练中,每次都取出一小部分数据学习梯度,导致学习到的梯度与正真的梯度有些偏差,特别是在存在噪声的数据中,这样的SGD可能需要更多时间去找到最小值点...原创 2019-03-22 15:29:46 · 443 阅读 · 0 评论