- 博客(161)
- 收藏
- 关注
原创 MMRotate旋转目标检测教程
MMRotate是一个面向旋转目标检测的开源工具包,基于MMDetection框架开发,支持DOTA、DIOR等旋转检测数据集。其核心组件包括数据加载(datasets)、模型架构(models)、评估指标(evaluation)和实用工具(utils),提供Oriented RCNN等主流旋转检测算法。安装需配置Miniconda环境,安装PyTorch、MMCV和MMDetection依赖,通过pip install -v -e .启用可编辑模式。训练流程包括数据集准备(需旋转框标注)、配置文件调整(骨
2025-06-25 11:10:30
1519
原创 Attention Is All You Need
Transformer沿用经典的编码器-解码器(Encoder-Decoder)结构,核心组件包括嵌入层(Embedding)、位置编码(Positional Encoding)、编码器栈、解码器栈、Softmax层。编码器-解码器注意力层(Encoder-Decoder Attention):查询(Q)来自解码器前一层,键(K)和值(V)来自编码器输出,使解码器能关注输入序列的所有位置(模拟传统seq2seq的对齐机制)长序列场景下,内存限制进一步压缩批量大小,训练耗时显著增加。
2025-08-26 11:44:18
325
原创 计算机视觉与自然语言处理技术体系概述
计算机视觉:从 “分类(整体判断)” 到 “检测(定位 + 分类)”“分割(像素级精细判断)”,再到 “跟踪(动态关联)”“生成(创造)”,实现从 “静态图像理解” 到 “动态视频分析” 再到 “视觉内容创造” 的能力升级;自然语言处理:从 “分类(整体文本判断)” 到 “匹配(文本间关联)”“标注(精细信息提取)”,再到 “生成(文本创造)”,实现从 “文本浅层分析” 到 “语义深层理解” 再到 “语言内容创造” 的能力升级。
2025-08-24 12:22:57
560
原创 一些旋转目标检测的问题
它降低了易分类样本(通常是多数类样本)的权重,让模型更关注难分类的样本(通常是少数类样本)。这样能使模型在训练时更有效地学习到少数类的特征,提高对少数类的检测性能,在处理类别不平衡的目标检测任务中有很好的效果。在误差较大时表现为类似L1损失的一次形式,避免了L1在零点不可导的问题,同时对离群值也不像L2那么敏感,从而在训练模型时能更稳定、有效地收敛到较好的结果。L2 正则化方法会在损失函数中加入一个与模型参数平方成正比的惩罚项,限制参数的大小,平滑模型,减少对噪声的敏感性,提高模型的泛化能力。
2025-08-23 11:00:47
667
原创 牛津大学xDeepMind 自然语言处理(5)
牛津大学xDeepMind 自然语言处理 Natural Language Processing。
2025-08-21 18:22:35
980
原创 牛津大学xDeepMind 自然语言处理(4)
牛津大学xDeepMind 自然语言处理 Natural Language Processing。
2025-08-20 17:03:02
1097
原创 牛津大学xDeepMind 自然语言处理(3)
软注意力学习:确定性软注意力是一种连续的、可微分的注意力机制,它通过某种函数(如softmax)对输入的权重进行平滑处理,生成注意力分布。这个分布是确定性的,不涉及随机性。硬注意力学习:随机性硬注意力是一种离散的注意力机制,它通过采样(如从概率分布中采样)来选择特定的输入特征或区域。早期绑定(Early Binding)和晚期绑定(Late Binding)是编程语言中两种不同的方法调用机制。早期绑定在编译时或程序启动时确定方法或变量的具体实现,通常与静态类型语言(如Java、C#)或编译型语言相关。
2025-08-20 11:46:21
929
原创 牛津大学xDeepMind 自然语言处理(2)
牛津大学xDeepMind 自然语言处理 Natural Language Processing。
2025-08-19 16:42:11
915
原创 牛津大学xDeepMind 自然语言处理(1)
牛津大学xDeepMind 自然语言处理 Natural Language Processing。
2025-08-18 18:11:00
1049
原创 机器学习-吴恩达笔记
简单说一下肘部原则:就是尝试多个聚类中心的个数,进行实验,得到对应的代价函数(loss值),然后按照个数的由小到大的增加画到一张图上,看看loss值有一个由大的波动到小的波动的拐点,那么我们选择这个拐点对应的聚类中心个数。就是如果说你有一个流动的数据流,就可以使用在线学习算法,还能够匹配到最新的趋势,比如用户的爱好在变化,你推荐给他的按照他的爱好变化而变化。PCA做的就是尝试找到一个面或线或别的在高维上可以将数据分隔开的东西,把数据投影到这个面或线上,以便最小化平方投影误差。确认没有误差运行时应该关闭。
2025-08-18 10:39:54
1502
原创 计算机视觉CS231n学习(9)
包括生成式预训练、测试时添加噪声、测试时减少置信度的扰动、权重衰减、各种非线性单元、用自编码器去除扰动、集成方法、纠错码、多次观察、双重反向传播、dropout、训练时添加噪声等。跨模型、跨数据集迁移,如不同的深度学习模型(DNN)、线性回归(LR)、支持向量机(SVM)等之间存在迁移性。虽然域外输入问题是基于模型优化的瓶颈,但对抗性样本可作为一种工具,帮助研究者更深入地理解模型的行为和弱点。不仅适用于神经网络,还适用于线性模型、逻辑回归、支持向量机(SVMs)、决策树、最近邻等多种模型。
2025-08-14 19:15:55
471
原创 计算机视觉CS231n学习(8)
例如,在ImageNet上,DSD训练使得GoogLeNet的Top-1准确率提高了1.1%,VGG-16提高了4.3%,ResNet-18提高了1.2%,ResNet-50提高了1.1%。(你所牵挂的,正在朝着熟悉的方向挪动,耐心等待,转角会有重逢的惊喜)(因为我的玄风小鸡丢了 三天每天睡四个小时寻找也没找到 已经是很伤心很伤心了 一想到我的小鸟毛茸茸的 在外面挨饿淋雨 真的很难受 小鸡快回家)总的来说,DSD训练通过在训练过程中引入稀疏性,能够有效地避免过拟合,提高模型的泛化能力和整体性能。
2025-08-14 10:28:10
1192
原创 计算机视觉CS231n学习(7)
核心是通过梯度上升最大化层激活(指让CNN中特定层的神经元激活值尽可能增大,在CNN中,当输入图像经过各层的卷积和池化等操作时,每一层的神经元会根据输入产生相应的输出值,这些输出值就是神经元的激活值)的平方和,过程中使用图像抖动、梯度归一化等技巧增强效果。隐式密度估计(仅能从P_model(x)采样,不明确定义)(强调模型能够“产出样本”,模型不提供P_model(x)的数学表达式,无法直接计算样本x的概率,但能通过模型生成符合该分布的样本)
2025-08-11 12:22:58
787
原创 pytorch+tensorboard+可视化CNN
卷积后效果 卷积核是3*3 stride=1 padding=0。原图:(量变临界点 强推 wyy可听)这个地方是池化之后是这样的。定义网络结构并实例化。
2025-08-09 18:52:44
461
2
原创 计算机视觉CS231n学习(6)
Faster R-CNN引入区域提议网络(RPN),让CNN自主生成提议,联合训练4种损失(1.RPN分类损失2.RPN回归边界框损失3.最终分类损失4.最终回归边界框损失),推理时间进一步缩短至0.2s/张。将定位视为回归问题,在分类网络基础上增加全连接层输出边界框坐标(x,y,w,h),损失函数为分类损失(softmax loss)+定位损失(L2 loss),常利用ImageNet预训练模型迁移学习。定义:给每个像素标记类别,不区分实例,只关心像素。分类+定位与人体姿态估计。
2025-08-09 16:56:10
421
原创 计算机视觉CS231n学习(5)
RNN生成每个单词时,会关注图像的不同区域(比如生成straw时关注帽子的straw部分),通过加权特征向量Z=Σpivi实现(pi为注意力权重,vi为图像特征)结合CNN(提取图像特征)和RNN(生成文字序列),CNN输出图像特征向量,去掉最后两层全连接层,作为RNN的初始输入,RNN逐步生成序列。反向传播时,梯度需要经过多个矩阵乘法(W的连乘),若W的最大奇异值>1,梯度爆炸;梯度优势:细胞状态ct通过元素乘法传递梯度(无矩阵连乘),实现”不间断梯度流“,类似ResNet的残差连接。
2025-08-08 17:16:55
996
原创 计算机视觉CS231n学习(4)
这是ResNet(残差网络)中最基础的 残差块(Residual Block) 结构示意图,用来解决深度神经网络训练时的梯度消失、模型难以收敛问题,核心是 “残差连接(跳跃连接)”设计。带有“微网络”的Mlpconv层,在每个卷积层内部计算局部图像块,更高层次的特征抽象。但是这样就会计算的很复杂,解决办法:采用1x1卷积来降低特征深度的“瓶颈”层。很小的计算量,但是耗费存储也很多,比较低的acc。微网络采用多层感知机(全连接层,即1x1卷积层)使用残差连接的非常深的网络(152层)
2025-08-07 17:53:07
1036
原创 计算机视觉CS231n学习(3)
输出:输出特征图(有几个卷积核就会输出多少个特征图)(关于输出特征图的尺寸,其实很好求,没必要套公式,画画图模拟一下就可以求出来了)(公式:(输入特征图大小+padding*2 - 卷积核大小)/ stride + 1)(sigmoid的输出为正数,作为下一层的输入,它通过 “输入信号的单向性” 限制了权重梯度的更新方向,导致网络学习效率低下、收敛缓慢,甚至可能陷入局部最优。可以设置padding填充输入特征图,可以实现统一输入特征图和输出特征图的尺寸,提取到更多的边缘特征。
2025-08-05 18:04:17
775
原创 计算机视觉CS231n学习(2)
模型的预测应该能够匹配训练数据,所以计算在训练集上的损失,并根据这个损失值反向传播更新参数,使得模型越来越接近真实结果,但是模型也应该是简单的(拥有泛化能力,不过拟合),也能够正常应用在测试数据上(所以加入正则项:入R(W) )反向传播更新参数时,全连接层中的各个神经元之间的节点的权重会被更新,卷积层中的卷积核上面的数值也会更新(卷积核尺寸不会变 是超参数)。首先,卷积层和池化层就是为了得到一个多维的特征矩阵,就是特征提取、特征处理之类的,此时和计算最后的结果是无关的。
2025-08-03 18:46:32
678
原创 svc模型训练-音频 推理结果电音问题
在进行音色转换的svc模型训练的时候发现:训练出来的模型推理的结果当中总是存在电音,是整首歌都处在电音下面的感觉。
2025-07-31 18:42:17
296
原创 计算机视觉CS231n学习(1)
当需要对一个新样本进行预测的时候,模型会在训练集中寻找与该样本最相似的k个样本,然后以这k个样本中哪个种类数最多来判断这个新样本的中来,so K 决定了 “参考多少个邻居” 来做预测,是 KNN 的核心超参数。但是K最近邻算法几乎不用在图像上:推理速度慢、基于像素的距离度量缺乏信息量(就是说可能肉眼几个差异大的图片输进去可能和原图的像比较的距离度量标准相同)、会发生维度灾难(高维的运算量大)设定不同的超参数k,在分成几份的训练集上训练,用验证集验证,在测试集上观察对完全崭新样本的预测。
2025-07-31 18:30:07
1120
原创 自然语言处理NLP(3)
LSTM层的隐藏状态是编码器和解码器的桥梁,在正向传播时,编码器的编码信息通过LSTM层的隐藏状态传递给解码器;Gated 门:用来控制数据的流动,门的开合程度是自动从数据中学习到的,有专门的权重参数用于控制门的开合程度,这些权重参数也是通过学习被更新,sigmoid函数用于求门的开合程度。概率性的选择:根据概率分布进行选择,这样概率高的单词容易被选到,概率低的单词难以被选到。遗忘门从上一时刻的记忆单元删除了应该忘记的,现在我们还想向这个记忆单元添加一些应当记住的,为此我们添加新的tanh节点。
2025-07-29 17:19:08
991
原创 自然语言处理NLP(2)
基于语料库的统计数据进行采样,计算语料库中各个单词的出现次数,表示为概率分布,使用概率分布对单词进行采样,让语料库中经常出现的单词容易被抽到。前馈神经网络:网络的传播方向是单项的,比如,输入层将输入信号传给隐藏层,接收到后又传给下一层,然后再传给下一层,,,,信号在一个方向上传播。负采样方法既可以求将正例作为目标词时的损失,同时也可以采样若干个负例,对这些负例求损失,然后将上述的两种损失加起来,作为最终的损失。给出单词序列发生的概率,使用概率来评估一个单词序列发生的可能性,即在多大程度上是自然的单词序列。
2025-07-28 19:35:43
564
原创 自然语言处理NLP (1)
将具有相同含义或者相似含义的单词归类到同一个组中,在NLP中用的同义词词典有时会定义单词之间的粒度更细的关系(层级结构关系等),形成一个单词网络。语料库预处理:corpus单词ID列表 word_to_id单词到ID的字典 id_to_word ID到单词的字典。基于计数/统计的方法:对某个单词的周围出现了多少次什么单词进行计数,然后再汇总。使用WordNet,可以获得单词的近义词,计算单词之间的相似度。共现矩阵:汇总了所有单词的上下文其他单词出现的次数。分布式假设:某个单词的含义由它周围的单词形成。
2025-07-27 16:46:06
1118
原创 深度学习入门(2)
鲁棒性:模型抗干扰的能力,当输入数据存在噪声、缺失、异常值,或者运行环境发生变化时,鲁棒性强的模型不会轻易失效,仍能给出合理的结果;由卷积层和池化层构成的基础CNN,特点在于将有权重的层(卷积层/全连接层)叠加至16层(或19层),具备了深度。BN:调整各层的激活值分布使其拥有适当的广度,以mini_batch为单位,按mini_batch进行归一化。设定范围,随机采样,根据评估结果,缩小设定范围,不断重复,缩小到一定程度的时候,选定一个值。AdaGrad为参数的每个元素适当的调整学习率,同时进行训练。
2025-07-26 17:49:38
1357
原创 深度学习入门(1)
下面的公式为什么是负号:当导数的值是负的,代表这个线是在下降的,我们需要向正向方向前进,求极小值;当导数的值是正的,代表这个线是在上升的,我们需要向负向方向前进,求极小值。回归上面感知机的公式,我们令a = b + w1x1 + x2x2,则h(a),当a<=0 h(a)=0;a>0 h(a)=1。神经元连接:层内无连接,层间全连接(同一层中的神经元之间没有任何连接,相邻两层的神经元之间存在全连接关系)梯度指示的方向是各点处的函数变化最快的方向,沿梯度反方向,方向导数取得最小值,函数沿该方向下降最快。
2025-07-25 18:07:56
632
原创 tensorflow安装(CPU版本)
摘要:本文介绍了TensorFlow的安装步骤。首先检查并创建Python虚拟环境(推荐Python 3.8),推荐安装TensorFlow 2.10.0版本。当直接安装出现超时问题时,建议使用阿里云镜像源(安装约1分钟),若失败可尝试清华源或升级pip工具。文中包含具体命令行操作和截图说明环境配置过程。
2025-07-24 18:39:33
368
原创 tensorflow搭建神经网络
padding -VALID:不全0填充 输出特征图的维度=(输入特征图的维度-卷积核维度+1)/ 步长 (向上取整)在神经网络训练时,将一部分神经元按照一定概率从神经网络中暂时舍弃,神经网络使用的时候,被舍弃的神经元恢复连接。全连接NN :每个神经元与前后相邻层的每一个神经元都有连接关系,输入是特征,输出为预测的结果。指数衰减学习率:先用较大的学习率,快速得到最优解,逐步减小学习率,使模型在训练后期稳定。会使很多参数变为0,因此L1正则化可以通过稀疏参数,减少参数数量,降低复杂度。
2025-07-24 17:46:23
1244
原创 pytorch: Sequential 损失函数 反向传播 优化器 模型的使用修改保存加载
Sequential 损失函数 反向传播 优化器 模型的使用修改保存加载
2025-07-21 18:31:49
236
原创 pytorch:神经网络 非线性激活层 正则化层 线性层
本文介绍了神经网络中的关键组件:非线性激活层、正则化层和线性层。非线性激活层通过ReLU和Sigmoid等函数增强模型的非线性拟合能力,代码展示了激活层的实现方式。正则化层用于防止过拟合,区分了归一化、标准化和正则化的概念。线性层(全连接层)将激活层输出转换为最终预测,文中提供了线性层的实现代码及其输入维度的计算方法。这些组件共同构成了神经网络的基本架构,在图像处理等任务中发挥重要作用。
2025-07-21 11:53:27
301
原创 pytorch:神经网络:池化层
本文介绍了神经网络中的池化操作,重点对比了MaxPool2d中ceil_mode参数设为True和False时的区别。当ceil_mode=True时,边缘不足卷积核大小的部分也会被池化;为False时则不会采样。通过代码示例展示了两种模式在5x5矩阵上的不同输出效果。文章还结合卷积层构建了一个完整的神经网络流程,演示了如何对卷积后的特征图进行池化处理,并使用TensorBoard可视化输入、卷积输出和池化输出结果。代码部分详细展示了数据预处理、卷积网络和池化网络的实现过程。
2025-07-20 18:30:20
403
原创 pytorch:神经网络:卷积层
本文介绍了神经网络中的卷积操作和卷积层实现。首先通过一个5x5矩阵和3x3卷积核的示例,展示了如何将输入和卷积核转化为4维张量进行卷积运算,并演示了不同步长(stride=1,2)和填充(padding=1)下的输出效果。然后详细讲解了卷积层的构建流程:包括数据集预处理(尺寸调整、归一化)、使用ImageFolder加载数据集、创建包含Conv2d层的神经网络模型(in_channels=3,out_channels=6,kernel_size=3),以及通过tensorboard可视化输入输出特征图。实验
2025-07-20 18:25:43
650
原创 pytorch:tensorboard和transforms学习
本文介绍了TensorBoard可视化工具和PyTorch中transforms数据预处理模块的使用方法。主要内容包括:1) 安装TensorBoard 2.12.0版本及路径问题解决方案;2) transforms模块的功能介绍,包括ToTensor()、Normalize()、Resize()、Compose()和RandomCrop()等常用方法;3) 通过代码示例展示了各transform方法对图像的处理效果,如归一化、尺寸调整和随机裁剪等。文章还提供了完整的代码结构和使用TensorBoard可视
2025-07-19 18:36:41
441
原创 回归问题-机器学习
梯度下降法是一种优化算法,用于最小化误差函数。文章从最小二乘法引入,解释了使用平方误差的原因(便于微分)和1/2系数的作用(简化表达式)。通过函数g(x)=(x-1)^2的微分示例,说明参数应向导数反方向调整以最小化误差,并强调了学习率对收敛速度的影响。文章提供了线性回归和多项式回归的Python实现案例,展示了梯度下降在参数优化中的应用。代码示例包括数据标准化、误差计算、参数更新和收敛判断等关键步骤,最后还介绍了随机梯度下降的实现。通过可视化图表直观呈现了模型拟合效果和误差收敛过程。
2025-07-14 10:44:08
364
原创 我的创作纪念日
成就竟然是贴代码嘛!那当然是第一次创作的代码啦!现在回看 当时真的好傻啊 写的代码都很复杂无用 其实已经有更简洁的写法啦!但是当时确实是自己探索的!所以还是将它贴出来啦!最后推荐给大家一首歌《不重逢》(华晨宇):这首歌我觉得就是最匹配我现在当下的情境的 每个人都在成长 和过去的自己告别 我永远在路上 我和之前的我永不重逢。提示:职业规划、创作规划等。
2025-07-14 10:33:42
414
原创 正则化-机器学习
本文通过代码示例展示了正则化在防止模型过拟合中的作用。在拟合多项式函数时,未应用正则化的模型(10次多项式)对带噪声的训练数据过度拟合,导致曲线剧烈波动;而加入L2正则化后,模型参数更新时增加了惩罚项,使拟合曲线更平滑,更接近真实函数。实验表明,正则化能有效控制模型复杂度,提升泛化能力。代码实现了从数据生成、标准化到参数更新的完整流程,通过对比有无正则化的拟合效果,直观呈现了正则化在机器学习中的重要性。
2025-07-13 17:01:53
399
原创 分类问题-机器学习
本文介绍了三种分类方法及其实现:感知机、逻辑回归和线性不可分分类问题。首先,感知机通过权重迭代学习区分图片的横向或纵向特征,训练数据来自images1.csv。其次,逻辑回归使用sigmoid函数预测分类,训练数据来自images2.csv,通过标准化和参数更新提高准确性。最后,线性不可分问题通过增加多项式特征(如x²)来提升分类效果,训练数据为data3.csv,展示了非线性分类的处理方法。每种方法均包含数据可视化、参数学习和预测步骤,代码示例详细展示了分类过程。
2025-07-13 16:56:59
511
Java Web Jquery表单验证
2023-07-26
计算机组成原理+与+异或+同或+电路图+logisim
2023-07-25
计算机组成原理+电路图+3-8译码器+logism
2023-07-25
计算机组成原理+串行八位+logisim+电路图
2023-07-25
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅