- 博客(39)
- 收藏
- 关注

原创 <读论文>(CLIP)Learning Transferable Visual Models From NaturalLanguage Supervision--openai
在构建计算机视觉模型时,只是为了某一个或某一组任务而构建数据集,往往需要大量的劳动力来进行数据标注,并且数据集的构建成本很高。而且,这些标准的计算机视觉模型擅长一类任务,甚至只擅长这一类任务。若是想要让模型适应新的任务需要花费大量的精力和成本。同时,一些训练时表现好的模型可能在测试中表现不佳。为了解决这些问题,CLIP诞生了。OpenAI从互联网收集了4亿(图像,文本)对的数据集,在预训 原文讲解练后,用自然语言描述所学习的视觉概念,类似于GPT-2 5和GPT-3的“zero-shot”功能。
2024-02-24 17:32:53
1407

原创 <读论文>(Transformer)An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale
在没有经过强正则化的中等数据集上时,transformer表现得没有很好,但是在足够大的数据集上训练后,VIT可以拿到和cnn中的sota差不多的结果甚至使用了更少的资源。查询资料可知,Transformer提出后在NLP领域中取得了极好的效果,其全Attention的结构,不仅增强了特征提取能力,还保持了并行计算的特点,可以又快又好的完成NLP领域内几乎所有任务,极大地推动自然语言处理的发展。2、全局视野:CNN没有全局视野,都是局部的感受野,需要通过堆叠(增加深度);
2024-02-12 10:54:58
1182
1
原创 配置深度学习环境
教程链接:https://blog.youkuaiyun.com/weixin_43397302/article/details/126999536。如果下载很慢,可以切换镜像源:https://www.likecs.com/show-308392978.html。(每个实验代码所需要的环境各不相同,因此一般一个环境跑一个实验代码)1、Anaconda(用来创建、配置虚拟环境)2、cuda(用GPU跑模型的“驱动”)3、pycharm(编辑器)
2024-05-24 16:38:50
529
原创 <读论文>陶建华,陈俊杰,李永伟. 语音情感识别综述[J]. 信号处理,2023,39(4): 571-587. DOI: 10. 16798/j.issn. 1003-0530. 2023. 04
提取音频信号中的特定特征来描述语音中的情感内容,然后使用这些特征作为输入来训练情感识别模型。这些特征可以是基于声学、语言或语音的特征,用于捕捉语音信号中与情感相关的信息。韵律特种(基频、音强、音长、音调、停顿、语速、时长等特征)、谱特征(反应发声运动和声道形状变化的特征,表现为LPCC、MFCC等特种)、音质特征(语音音质,如喘息哽咽等)日本北陆先端科学技术大学院研究团队构建了三层模型:底层是声学特征、中层是形容词的组合、上层是情感类别或维度情感空间,中间层增加了人工成本。构建生态性较好的语音情感语料库。
2024-05-22 17:04:18
520
原创 <读论文>(ResNet)Deep Residual Learningfor Image Recognition--图像识别中的深度残差学习网络
1.深度网络难训练2.本文提出的残差学习易训练3.优点:易优化,精度高4.resnet-152与vgg对比5.在cifar-10训练100/1000层resnet1.coco检测上获得28%相对提升2.在4个任务均获得最优成绩。
2024-02-24 18:26:47
419
原创 PyTorch笔记33--PyTorch与目标检测
2. 回归:回归边界框[x1, y1, x2, y2]1. 分类张量:shape为 [N, c+1]2. 边界框张量:shape为 [N, 4]1. 分类:分类向量[p0, …将3D张量映射到两个张量。传统方法——滑动窗策略。2. 窗口大小难确定。边界框数量N如何确定?目标检测:判断图像中。模型如何完成目标检测。
2024-02-22 17:01:31
345
原创 PyTorch笔记32--PyTorch与图像分割
• github:str, 项目名,eg:pytorch/vision,<repo_owner / repo_name[:tag_name]>1.超像素分割:少量超像素代替大量像素,常用于图像预处理。PyTorch-Hub——PyTorch模型库,有大量模型供开发者调用。3. 实例分割:对个体目标进行分割,像素级目标检测。• model: str, 模型名。2. 语义分割:逐像素分类,无法区分个体。4. 全景分割:语义分割结合实例分割。图像分割:将图像每一个。
2024-02-22 16:58:04
472
1
原创 PyTorch笔记31--PyTorch与图像分类
1. 确保 model处于eval状态而非training。2. 设置torch.no_grad(),减少内存消耗。3. 数据预处理需保持一致,RGB o rBGR?2. 数据变换,如RGB → 4D-Tensor。2. 选择模型,损失函数,优化器。4. 写inference代码。4. 输出保存预测结果。图像分类的Inference(推理)1. 获取数据与标签。1. 获取数据与模型。
2024-02-22 16:51:28
402
原创 PyTorch笔记29--GPU的使用
CPU(Central Processing Unit, 中央处理器):主要包括控制器和运算器GPU(Graphics Processing Unit, 图形处理器):处理统一的,无依赖的大规模数据运算。
2024-02-22 16:40:51
388
原创 PyTorch笔记28--模型微调(Finetune)
2. Features Extractor较小学习率(params_group)1. 固定预训练的参数(requires_grad =False;2. 加载模型(load_state_dict)Transfer Learning:机器学习分支,研究。Model Finetune:模型的迁移学习。1. 获取预训练模型参数。目标域(target domain)源域(source domain)PyTorch中的Finetune。
2024-02-22 16:32:44
499
原创 PyTorch笔记26--BN、LN、IN and GN
Internal Covariate Shift (ICS):数据尺度/分布异常,导致训练困难。
2024-02-22 16:19:11
401
原创 PyTorch笔记25--Batch Normalization
Batch Normalization:批标准化批:一批数据,通常为mini-batch标准化:0均值,1方差优点:1. 可以用更大学习率,加速模型收敛2. 可以不用精心设计权值初始化3. 可以不用dropout或较小的dropout4. 可以不用L2或者较小的weight decay5. 可以不用。
2024-02-22 16:09:16
382
原创 PyTorch笔记24--正则化之Dropout
Dropout:随机失活随机:dropout probability失活:weight = 0。
2024-02-22 15:57:29
397
原创 PyTorch笔记23--正则化之weight decay
Regularization:减小方差的策略误差可分解为:偏差,方差与噪声之和。即误差 = 偏差 + 方差 + 噪声之和偏差度量了学习算法的期望预测与真实结果的偏离程度,即刻画了学习算法本身的拟合能力方差度量了同样大小的训练集的变动所导致的学习性能的变化,即刻画了数据扰动所造成的影响噪声则表达了在当前任务上任何学习算法所能达到的期望泛化误差的下界。
2024-02-22 15:53:07
414
原创 PyTorch笔记19--学习率调整策略
主要属性:optimizer:关联的优化器last_epoch:记录epoch数base_lrs:记录初始学习率主要方法:step():更新下一个epoch的学习率get_lr():虚函数,计算下一个epoch的学习率。
2024-02-21 16:33:21
440
原创 PyTorch笔记18--优化器Optimizer(二)
自适应学习率梯度下降法 《Adaptive Subgradient Methods for Online Learning and Stochastic Optimization》RMSprop结合Momentum 《Adam: A Method for Stochastic Optimization》Adam增加学习率上限 《Adam: A Method for Stochastic Optimization》Adagrad的改进 《 AN ADAPTIVE LEARNING RATE METHOD》
2024-02-21 16:13:52
390
原创 PyTorch笔记17--优化器Optimizer(一)
管理并更新模型中可学习参数的值,使得模型输出更接近真实标签:函数在指定坐标轴上的变化率:指定方向上的变化率:一个向量,方向为方向导数取得最大值的方向。
2024-02-21 15:23:02
394
原创 PyTorch笔记16--损失函数(二)
y = 1时, 希望x1比x2大,当x1>x2时,不产生loss。y = -1时,希望x2比x1大,当x2>x1时,不产生loss。
2024-02-21 15:08:04
451
原创 PyTorch笔记15--损失函数(一)
损失函数:衡量模型输出与真实标签的差距损失函数(Loss Function):代价函数(Cost Function):目标函数(Objective Function):交叉熵损失函数交叉熵 = 信息熵 + 相对熵交叉熵:自信息:熵:相对熵:交叉熵:
2024-02-21 14:24:34
422
原创 PyTorch笔记13--池化、线性、激活函数层
对信号进行“收集”并“总结”,类似水池收集水资源,因而得名池化层“收集”:多变少“总结”:最大值/平均值。
2024-02-19 16:56:34
388
1
原创 PyTorch笔记12--卷积层
转置卷积又称为部分跨越卷积(Fractionally-strided Convolution) ,用于对图像进行上采样(UpSample)类似于用一个模板去图像上寻找与它相似的区域,与卷积核模式越相似,激活值越高,从而实现特征提取。假设图像尺寸为4*4,卷积核为3*3,padding=0,stride=1。假设图像尺寸为2*2,卷积核为3*3,padding=0,stride=1。一般情况下,卷积核在几个维度上滑动,就是几维卷积。AlexNet卷积核可视化,发现卷积核学习到的是。卷积核: K𝟏𝟔∗𝟒。
2024-02-19 16:21:37
386
1
原创 PyTorch笔记11--模型容器与AlexNet构建
顺序性,各网络层之间严格按顺序执行,常用于block构建迭代性,常用于大量重复网构建,通过for循环实现重复构建索引性,常用于可选择的网络层。
2024-02-19 15:59:51
357
1
原创 PyTorch笔记10--模型创建与nn.Module
一个module相当于一个运算,必须实现forward()函数。一个module可以包含多个子module。每个module都有8个字典管理它的属性。
2024-02-19 15:43:05
337
1
原创 PyTorch笔记9--transforms数据增强(二)
椒盐噪声 :椒盐噪声又称为脉冲噪声,是一种随机出现的白点或者黑点, 白点称为盐噪声, 黑色为椒噪声信噪比(Signal-Noise Rate, SNR):是衡量噪声的比例,图像中为图像像素的占比self.p = p```添加椒盐噪声具体实现过程```return imgreturn img。
2024-02-19 15:26:58
689
1
原创 PyTorch笔记8--transforms数据增强(一)
数据增强又称为数据增广,数据扩增,它是对训练集进行变换,使训练集更丰富,从而让模型更具泛化能力举例:(训练集)五年高考真题>>三年模拟试题(验证集)当年高考真题。
2024-02-19 11:31:26
477
1
原创 PyTorch笔记7--数据预处理transforms模块机制
torchvision.transforms:常用的图像预处理方法(如数据中心化、数据标准化、缩放、裁剪、旋转、翻转、填充、噪声添加、灰度变换、线性变化、仿射变换、亮度饱和度及对比度变换)torchvision.datasets:常用数据集的dataset实现,MNIST,CIFAR-10,ImageNet等。torchvision.model:常用的模型预训练,AlexNet,VGG,ResNet,GoogLeNet等。比较常用的预处理方法transforms.Normalize。
2024-02-19 00:43:19
404
1
原创 PyTorch笔记6--DataLoader和Dataset
drop last = False时1 Epoch = 11 lteration。drop last = True时 1 Epoch =10 lteration。样本总数:80,Batchsize:8 则1 Epoch = 10 lteration。Batchsize:批大小,决定一个Epoch有多少个Iteration。lteration:一批样本输到模型中称之为一个ieration。Epoch:所有训练样本都已输入到模型中,称为一个Epoch。样本总数:87,Batchsize:8 则。
2024-02-19 00:20:07
370
1
原创 PyTorch笔记5--autograd与逻辑回归
PS:1、梯度不自动清零2、依赖于叶子结点的结点,require_grad默认为True3、叶子结点不可执行in-place。
2024-02-18 20:59:47
409
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人