三天没吃小孩了-优快云博客

原创＜读论文＞(CLIP)Learning Transferable Visual Models From NaturalLanguage Supervision--openai

在构建计算机视觉模型时，只是为了某一个或某一组任务而构建数据集，往往需要大量的劳动力来进行数据标注，并且数据集的构建成本很高。而且，这些标准的计算机视觉模型擅长一类任务，甚至只擅长这一类任务。若是想要让模型适应新的任务需要花费大量的精力和成本。同时，一些训练时表现好的模型可能在测试中表现不佳。为了解决这些问题，CLIP诞生了。OpenAI从互联网收集了４亿（图像，文本）对的数据集，在预训原文讲解练后，用自然语言描述所学习的视觉概念，类似于GPT-2 5和GPT-3的“zero-shot”功能。

2024-02-24 17:32:53 1407

原创 Sora模型

太牛了，码上慢慢研究

2024-02-22 10:23:56 375

原创＜读论文＞(Transformer)An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale

在没有经过强正则化的中等数据集上时，transformer表现得没有很好，但是在足够大的数据集上训练后，VIT可以拿到和cnn中的sota差不多的结果甚至使用了更少的资源。查询资料可知，Transformer提出后在NLP领域中取得了极好的效果，其全Attention的结构，不仅增强了特征提取能力，还保持了并行计算的特点，可以又快又好的完成NLP领域内几乎所有任务，极大地推动自然语言处理的发展。2、全局视野：CNN没有全局视野，都是局部的感受野，需要通过堆叠(增加深度)；

2024-02-12 10:54:58 1182 1

原创配置深度学习环境

教程链接：https://blog.youkuaiyun.com/weixin_43397302/article/details/126999536。如果下载很慢，可以切换镜像源：https://www.likecs.com/show-308392978.html。（每个实验代码所需要的环境各不相同，因此一般一个环境跑一个实验代码）1、Anaconda（用来创建、配置虚拟环境）2、cuda（用GPU跑模型的“驱动”）3、pycharm（编辑器）

2024-05-24 16:38:50 529

原创＜读论文＞陶建华，陈俊杰，李永伟. 语音情感识别综述［J］. 信号处理，2023，39（4）： 571-587. DOI： 10. 16798/j.issn. 1003-0530. 2023. 04

提取音频信号中的特定特征来描述语音中的情感内容，然后使用这些特征作为输入来训练情感识别模型。这些特征可以是基于声学、语言或语音的特征，用于捕捉语音信号中与情感相关的信息。韵律特种（基频、音强、音长、音调、停顿、语速、时长等特征）、谱特征（反应发声运动和声道形状变化的特征，表现为LPCC、MFCC等特种）、音质特征（语音音质，如喘息哽咽等）日本北陆先端科学技术大学院研究团队构建了三层模型：底层是声学特征、中层是形容词的组合、上层是情感类别或维度情感空间，中间层增加了人工成本。构建生态性较好的语音情感语料库。

2024-05-22 17:04:18 520

原创＜读论文＞(ResNet)Deep Residual Learningfor Image Recognition--图像识别中的深度残差学习网络

1.深度网络难训练2.本文提出的残差学习易训练3.优点：易优化，精度高4.resnet-152与vgg对比5.在cifar-10训练100/1000层resnet1.coco检测上获得28%相对提升2.在4个任务均获得最优成绩。

2024-02-24 18:26:47 419

原创 PyTorch笔记33--PyTorch与目标检测

2. 回归：回归边界框[x1, y1, x2, y2]1. 分类张量：shape为 [N, c+1]2. 边界框张量：shape为 [N, 4]1. 分类：分类向量[p0, …将3D张量映射到两个张量。传统方法——滑动窗策略。2. 窗口大小难确定。边界框数量N如何确定？目标检测：判断图像中。模型如何完成目标检测。

2024-02-22 17:01:31 345

原创 PyTorch笔记32--PyTorch与图像分割

• github：str, 项目名，eg：pytorch/vision，<repo_owner / repo_name[:tag_name]>1.超像素分割：少量超像素代替大量像素，常用于图像预处理。PyTorch-Hub——PyTorch模型库，有大量模型供开发者调用。3. 实例分割：对个体目标进行分割，像素级目标检测。• model: str, 模型名。2. 语义分割：逐像素分类，无法区分个体。4. 全景分割：语义分割结合实例分割。图像分割：将图像每一个。

2024-02-22 16:58:04 472 1

原创 PyTorch笔记31--PyTorch与图像分类

1. 确保 model处于eval状态而非training。2. 设置torch.no_grad()，减少内存消耗。3. 数据预处理需保持一致，RGB o rBGR？2. 数据变换，如RGB → 4D-Tensor。2. 选择模型，损失函数，优化器。4. 写inference代码。4. 输出保存预测结果。图像分类的Inference(推理)1. 获取数据与标签。1. 获取数据与模型。

2024-02-22 16:51:28 402

原创 PyTorch笔记30--PyTorch常见报错

【代码】PyTorch笔记30--PyTorch常见报错。

2024-02-22 16:47:34 637

原创 PyTorch笔记29--GPU的使用

CPU（Central Processing Unit, 中央处理器）：主要包括控制器和运算器GPU(Graphics Processing Unit, 图形处理器)：处理统一的，无依赖的大规模数据运算。

2024-02-22 16:40:51 388

原创 PyTorch笔记28--模型微调（Finetune）

2. Features Extractor较小学习率（params_group）1. 固定预训练的参数(requires_grad =False；2. 加载模型（load_state_dict）Transfer Learning：机器学习分支，研究。Model Finetune：模型的迁移学习。1. 获取预训练模型参数。目标域(target domain)源域(source domain)PyTorch中的Finetune。

2024-02-22 16:32:44 499

原创 PyTorch笔记27--模型保存与加载

法1：保存整个Module。

2024-02-22 16:23:58 356

原创 PyTorch笔记26--BN、LN、IN and GN

Internal Covariate Shift (ICS)：数据尺度/分布异常，导致训练困难。

2024-02-22 16:19:11 401

原创 PyTorch笔记25--Batch Normalization

Batch Normalization：批标准化批：一批数据，通常为mini-batch标准化：0均值，1方差优点：1. 可以用更大学习率，加速模型收敛2. 可以不用精心设计权值初始化3. 可以不用dropout或较小的dropout4. 可以不用L2或者较小的weight decay5. 可以不用。

2024-02-22 16:09:16 382

原创 PyTorch笔记24--正则化之Dropout

Dropout：随机失活随机：dropout probability失活：weight = 0。

2024-02-22 15:57:29 397

原创 PyTorch笔记23--正则化之weight decay

Regularization：减小方差的策略误差可分解为：偏差，方差与噪声之和。即误差 = 偏差 + 方差 + 噪声之和偏差度量了学习算法的期望预测与真实结果的偏离程度，即刻画了学习算法本身的拟合能力方差度量了同样大小的训练集的变动所导致的学习性能的变化，即刻画了数据扰动所造成的影响噪声则表达了在当前任务上任何学习算法所能达到的期望泛化误差的下界。

2024-02-22 15:53:07 414

原创 PyTorch笔记22--Hook函数与CAM算法

Hook函数机制：不改变主体，实现额外功能，像一个挂件，挂钩，hook。

2024-02-21 17:01:32 381

原创 PyTorch笔记21--TensorBoard使用

【代码】PyTorch笔记21--TensorBoard使用（一）

2024-02-21 16:47:26 411

原创 PyTorch笔记20--TensorBoard

TensorBoard：TensorFlow中强大的可视化工具。

2024-02-21 16:40:05 402

原创 PyTorch笔记19--学习率调整策略

主要属性：optimizer：关联的优化器last_epoch：记录epoch数base_lrs：记录初始学习率主要方法：step()：更新下一个epoch的学习率get_lr()：虚函数，计算下一个epoch的学习率。

2024-02-21 16:33:21 440

原创 PyTorch笔记18--优化器Optimizer（二）

自适应学习率梯度下降法《Adaptive Subgradient Methods for Online Learning and Stochastic Optimization》RMSprop结合Momentum 《Adam: A Method for Stochastic Optimization》Adam增加学习率上限《Adam: A Method for Stochastic Optimization》Adagrad的改进《 AN ADAPTIVE LEARNING RATE METHOD》

2024-02-21 16:13:52 390

原创 PyTorch笔记17--优化器Optimizer（一）

管理并更新模型中可学习参数的值，使得模型输出更接近真实标签：函数在指定坐标轴上的变化率：指定方向上的变化率：一个向量，方向为方向导数取得最大值的方向。

2024-02-21 15:23:02 394

原创 PyTorch笔记16--损失函数（二）

y = 1时，希望x1比x2大，当x1>x2时，不产生loss。y = -1时，希望x2比x1大，当x2>x1时，不产生loss。

2024-02-21 15:08:04 451

原创 PyTorch笔记15--损失函数（一）

损失函数：衡量模型输出与真实标签的差距损失函数（Loss Function）：代价函数（Cost Function）：目标函数（Objective Function）：交叉熵损失函数交叉熵 = 信息熵 + 相对熵交叉熵：自信息：熵：相对熵：交叉熵：

2024-02-21 14:24:34 422

原创 PyTorch笔记14--权值初始化

方差一致性：保持数据尺度维持在恰当范围，通常方差为1激活函数：饱和函数，如Sigmoid，Tanh。

2024-02-21 11:20:31 358

原创 PyTorch笔记13--池化、线性、激活函数层

对信号进行“收集”并“总结”，类似水池收集水资源，因而得名池化层“收集”：多变少“总结”：最大值/平均值。

2024-02-19 16:56:34 388 1

原创 PyTorch笔记12--卷积层

转置卷积又称为部分跨越卷积(Fractionally-strided Convolution) ，用于对图像进行上采样(UpSample)类似于用一个模板去图像上寻找与它相似的区域，与卷积核模式越相似，激活值越高，从而实现特征提取。假设图像尺寸为4*4，卷积核为3*3，padding=0，stride=1。假设图像尺寸为2*2，卷积核为3*3，padding=0，stride=1。一般情况下，卷积核在几个维度上滑动，就是几维卷积。AlexNet卷积核可视化，发现卷积核学习到的是。卷积核： K𝟏𝟔∗𝟒。

2024-02-19 16:21:37 386 1

空空如也

空空如也