
CS231n笔记
文章平均质量分 55
未来可期,期许未来
这个作者很懒,什么都没留下…
展开
-
cs231n笔记:激活函数(activation function)
激活函数1.sigmoid:特点:(1)每个元素被压缩到0-1之间(2)可以被解释为神经元的饱和放电率(3)横坐标靠近0的区域,可以近似作为线性区域问题:(1)饱和神经元使得梯度消失在反向传播时,若x=-10,则输出为接近0的数,local gradient(输出对输入x的导数(斜率))几乎为0,经过链式法则则L对x的梯度也几乎为0,梯度流消失,0梯度便会传到下一个节点;若x=0,会得到合理的梯度,并可以进行很好的反向传播(2)sigmoid是一个非零为中心的函数,当神经元的输入始终原创 2021-04-26 15:06:43 · 220 阅读 · 0 评论 -
cs231n笔记:卷积神经网络(cnn)和池化(pooling)
卷积神经网络(convolutional nural network ):更能保留输入的空间结构CNN的一些历史:感知机(perceptron)多层感知机(multilayer perceptron networks)反向传播AlexNet:与LetNet-5看上去差别不大,只是扩展得更大、更深。重点是能充分利用大量数据,也充分发挥了GPU并行计算能力的优势全连接层与卷积层的对比:卷积层的权重是一些小的卷积核(此例中为553 filter),然后将卷积核在整个图像上滑动,计算出每个空间原创 2021-04-26 11:14:34 · 729 阅读 · 0 评论 -
cs231n笔记:神经网络
神经网络由简单函数构成的一组函数,以层次化的方式堆叠在一起,为了去形成一个更复杂的非线性函数,即多阶段分层计算。线性分类中,w的每行相当于一个模板,是一个分类表达的模板(可以可视化为图像),在输入中寻找的具体分类输入。例如,w1中的某一行还原为红车的模板,在输入中寻找它,计算它在车分类中的分数。w1中一行仅仅有一个模板,实际中有许多的样式,则通过w2,便可以将车分类联系起来,w2使h里所有向量的权重(是所有范本的加权),允许你在多个范本中进行权衡,来得到特定分类的最后得分。接近的解释:w1的每行相当于原创 2021-04-24 22:11:50 · 170 阅读 · 2 评论 -
cs231n笔记:计算图与反向传播
computational graph:若能用计算图表示一个函数,那便可以使用反向传播技术,递归的调用链式法则来计算图中的每个变量的梯度(反向传播是链式法则的递归调用)在前向传播时,每个节点都会计算local gradient在反向传播时,每到达一个节点,都会得到从上游返回的梯度(这个梯度时对此节点的输出的求导)如下图:在反向传播时,当我们到达这个节点,就已经从上游得到了L对z的梯度。现在的想法是去求对此节点的输入的梯度(即对x,y的梯度)计算L对此节点输入的梯度(L对x,L对y的梯度):运用原创 2021-04-24 10:11:36 · 363 阅读 · 0 评论 -
cs231n softmax classification和optimazation
softmax classification(在多项式逻辑回归中(Multinomial Logistic Regression)):在SVM中,分数sj 并没有具体的含义而softmax loss:有一个例子,可见求loss时,P仅仅用的是真实标签下的经过指数化和归一化的概率SVM与softmax对比:SVM得到分数值,即使最高类的概率稍稍有些变化,也不会影响Loss,因为SVM唯一关心的是正确class的分数是否比不正确class的分数大1(安全边际);softmax得到概率,量化好坏,概原创 2021-04-22 21:36:48 · 341 阅读 · 0 评论 -
cs231n笔记:损失函数(loss function)和正则化(regularization)
损失函数(loss function)量化模型的好坏a dataset of examples:loss:multi-class SVM loss:公式里的1(边界)只是一个任意的选择,,关心分数的相对差值。SVM损失函数只关注正确的分数比不正确的分数是否大于1,若大于1,则损失为0.下面这个图是对SVM公式的理解:def L_i_vectorized(x,y,w): scores = W.dot(x) margins = np.maximum(0, scores - score原创 2021-04-22 19:29:42 · 952 阅读 · 0 评论 -
cs231n笔记:linear classification(线性分类)
linear classification:f(w,x)=wx+b由上图可知:W中有3类模板(每行对应图像的每个模板,而模板可以可视化为图像);X的空间结构被破坏,由22的图像拉伸为41的向量线性分类是一种模板匹配(template matching)的方法,每个类别只学习到了一个模板。w的每行和X作点积即表达的是这个类的模板与像素X之间的相似度。线性决策边界画一个线性分类面来划分一个类别与其他类别线性分类可以解释为每类的学习模板,w中每一行(权重)告诉我们那个像素对那个分类有多少影响...原创 2021-04-22 15:05:42 · 146 阅读 · 0 评论 -
cs231n笔记:K-Nearest Neighbors(KNN)K-近邻算法
K-Nearest Neighbors:不只寻找单个最近的点,找到最近的K个点,然后K个点投票,票数最多为预测结果K值越大,决策边界越平滑k与距离度量均为超参数(不一定能从训练数据中学到,非常依赖问题(需要人为设置))两种距离:L1距离(曼哈顿距离):L2距离(Euclidean distance)(欧式距离):平方和的平方根两种距离的对比:L1非常依赖数据的坐标系统,向量中的各元素有实际意义L2不依赖数据的坐标系统划分数据:在训练集上用不同的超参数训练算法,在验证集上进行评估,然原创 2021-04-22 11:34:20 · 210 阅读 · 0 评论 -
cs231n笔记(数据驱动与最近邻算法)
数据驱动方法(data-drive approach)Collect a dataset of images and labelsUse dataset to train a classierEvaluate the classifier on new imagesdef train(images, labels): #使用图片和标签去训练模型 model = [] return modeldef predict(model, test_images): #使用模型原创 2021-04-22 10:40:10 · 187 阅读 · 0 评论