cs231nLesson1-3

本文档总结了CS231n课程的学习笔记及作业,涵盖了最近版本的内容更新。探讨了识别难度因素,介绍了最近邻方法及其在深度学习框架中的应用限制,详细解析了线性分类器的工作原理及实现过程。

cs231n每半年更新一次,最近看了新的版本,整理了下之前学习的笔记和作业。

.Diffuculty of Recogonition:

illumination, deformation, Background Clutter, Intraclass variation,etc..

1.Nearest Neighbor Method(现在深度学习框架内很少使用)

train:O(1)
test:O(n)
test时将待估计的图片image_e与train所有的N张数据比较,选距离最近的一张image_i,那么train_i对应的label就是待估计的图片的label。 当然实际常常使用KNN算法,在K张最近(这个近可以用各类距离来衡量,也可以用自定义的方式来衡量)的图片中,如果某个label的图片数量最多,则image_e的label就是这个label。
如果训练集太大,将test图像与每个traing数据计算数据量太大,则可使用pproximate Nearest Neighbor library (e.g. FLANN)
如何选K?

交叉验证来训练:最好将训练数据分N段,每次选择一部分作为为traing, 一部分(往往是一段)作为validataion,在validataion中尝试不同的K值(分一部分作为validatiaon,相当于在测试过程中不断做:test-train-test的过程)

2.Linear Classification

f(x,W)=Wx+b(1)

将任何输入和输出之间的关系视为一个函数时,深度学习为了拟合非线性函数,基本架构是一层线性分类器+一层非线性函数(Relu,softmax,etc..)
(以下都以cifar-10为例)
f的值是一个10x1的向量,分别表示这10个label的score高低,这10维的向量中哪个元素最高,就意味着这个图像x属于该元素对应的类别。

2.1 loss(cost, objective) function

loss function的结果作为评价如今模型W等参数好坏/是否收敛的指标。其中loss function有很多形式,具体可参见:参见我的文章机器学习中常用的loss function

2.2 weight W and bias b

从几何上,W的作用可以解释为:(如果将image的像素压栈成一列,则如cafar-10的图像都在3072维的空间上)改动(1)式子中的weight任一行,相当于将图像在图像空间中旋转一个不同的角度,如图:

这里写图片描述
(该图是将图像空间”压”到二维平面上)

car的红色箭头表示score增长的方向,红线以左是score为0的部分。
如果label有10个,则W(10x3072)相当于10个不同的高纬度直线,各自将3072维度的空间切割开,使得不同的label对应的图像在直线的一边。

从模板上,W可以解释为:
W的每一行都是与相应的image内积,而W是归一化的,我们知道,当两个向量a,b的模都固定且b固定时,a平行于b时,也即是a的各维参数分布和b相同,a*b=|a||b|cosr有最大的值。从图中也可以发现,对应分类的模板具有和类别模糊相似的特征,比如大约能看出这是汽车,马等:
这里写图片描述

b的作用,在于平移高纬直线,以免如果image的图像像素值为0时获得score为0.
常见的做法是将w,b合为一个矩阵:用齐次表达

W=[W;b][x;1]T
,这样可以直接估计一个矩阵W‘满足f = W’x。

2.3 regularization

如果把W看做一个模板的话,在整个数据集上,nW和W的效果是一样的。我们可以归一化数据集,同样也可以归一化W。常见的做法用W的L2范式:

R(w)=klW2k,l

在所有loss function小项之后,加一个这个正则项:
L=1NiLi+λR(W)

所谓正则,就是纠正、调整的意思。
W正则化还有个好处是更倾向考虑到输入的所有维度。对于只考虑一小部分维度的W和考虑到所有维度(当然对应权重会更小)的W,当Wx结果一样时,后者的正则项会更小。这样也有助于减少overfitting.
而上文的 λ 是数据项(前边的项)和正则项之间进行权衡,
所以以SVM loss的最终版评价W的损失函数为:
这里写图片描述

训练数据保存为deep_convnet_params.pkl,UI使用wxPython编写。卷积神经网络(CNN)是一种专门针对图像、视频等结构化数据设计的深度学习模型,在计算机视觉、语音识别、自然语言处理等多个领域有广泛应用。其核心设计理念源于对生物视觉系统的模拟,主要特点包括局部感知、权重共享、多层级抽象以及空间不变性。 **1. 局部感知与卷积操作** 卷积层是CNN的基本构建块,使用一组可学习的滤波器对输入图像进行扫描。每个滤波器在图像上滑动,以局部区域内的像素值与滤波器权重进行逐元素乘法后求和,生成输出值。这一过程能够捕获图像中的边缘、纹理等局部特征。 **2. 权重共享** 同一滤波器在整个输入图像上保持相同的权重。这显著减少了模型参数数量,增强了泛化能力,并体现了对图像平移不变性的内在假设。 **3. 池化操作** 池化层通常紧随卷积层之后,用于降低数据维度并引入空间不变性。常见方法有最大池化和平均池化,它们可以减少模型对微小位置变化的敏感度,同时保留重要特征。 **4. 多层级抽象** CNN通常包含多个卷积和池化层堆叠在一起。随着网络深度增加,每一层逐渐提取更复杂、更抽象的特征,从底层识别边缘、角点,到高层识别整个对象或场景,使得CNN能够从原始像素数据中自动学习到丰富的表示。 **5. 激活函数与正则化** CNN中使用非线性激活函数来引入非线性表达能力。为防止过拟合,常采用正则化技术,如L2正则化和Dropout,以增强模型的泛化性能。 **6. 应用场景** CNN在诸多领域展现出强大应用价值,包括图像分类、目标检测、语义分割、人脸识别、图像生成、医学影像分析以及自然语言处理等任务。 **7. 发展与演变** CNN的概念起源于20世纪80年代,其影响力在硬件加速和大规模数据集出现后真正显现。经典模型如LeNet-5用于手写数字识别,而AlexNet、VGG、GoogLeNet、ResNet等现代架构推动了CNN技术的快速发展。如今,CNN已成为深度学习图像处理领域的基石,并持续创新。 资源来源于网络分享,仅用于学习交流使用,请勿用于商业,如有侵权请联系我删除!
内容概要:本文介绍了一种基于CEEMDAN-BiLSTM的中短期天气预测模型,通过将完全集合经验模态分解自适应噪声(CEEMDAN)与双向长短期记忆网络(BiLSTM)相结合,实现对复杂气象时间序列的高精度预测。首先利用CEEMDAN对原始气象数据进行多尺度分解,获得多个本征模态函数(IMF)分量和残差,有效解决模式混叠与噪声干扰问题;随后对各IMF分量分别构建BiLSTM模型进行独立预测,充分发挥其对前后时序依赖的建模能力;最后通过集成重构输出最终预测结果。文中还包含了数据预处理、特征提取、模型评估与可视化等完整流程,并提供了MATLAB实现的部分代码示例。该方法显著提升了天气预测的准确性与鲁棒性,适用于多类气象要素的中短期趋势预测。; 适合人群:具备一定机器学习和时间序列分析基础,从事气象、环境、能源等领域研究或工程应用的研发人员、高校研究生及数据科学家。; 使用场景及目标:①应用于温度、风速、降水等气象变量的中短期精准预测;②解决传统模型在非线性、多尺度气象信号建模中的局限性;③构建智能气象预测系统,服务于电力调度、灾害预警、智慧农业等实际业务场景。; 阅读建议:建议结合MATLAB代码实践操作,深入理解CEEMDAN分解机制与BiLSTM建模细节,重点关注数据预处理、模型参数调优与结果集成策略,同时可扩展至多变量联合预测以提升应用价值。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值