- 博客(51)
- 收藏
- 关注
原创 Swin Transformer
Patch Partition结构是将图片数据进行分割成不重叠的M*M补丁。每个补丁被视为一个“标记”,其特征被设置为原始像素RGB值的串联。在论文中,使用4 × 4的patch大小,因此每个patch的特征维数为4 × 4 × 3 = 48。在此原始值特征上应用线性嵌入层(Linear Embedding),将其投影到任意维度(记为C)。图3.2 patch partition和Linear Embedding原理示意图。
2025-11-27 21:06:03
1050
原创 VQA-视觉问答
人类能够通过各种感官模态(如听觉、嗅觉、视觉和触觉)处理来自周围环境的信息。尽管这些类型的数据是单独吸收的且不兼容,但人类具有显著的能力来对齐和融合它们,以更好地感知和理解周围的世界。例如,当观看电视节目时,人类可以同时处理节目的视觉和听觉组件,以增强对内容的理解和享受。这种不同感官模态的整合对于我们作为人类有效感知和解释世界的能力至关重要,并突显了人脑的惊人灵活性和适应性。多模态计算是一个吸引了研究界广泛关注的领域,旨在通过在机器中开发能够整合来自多个来源(如图像、音频和文本)信息的算法来复制这种能力。
2025-11-21 15:21:50
653
原创 《轻量化 Transformers:开启计算机视觉新篇》
ViT在小型数据集上性能不够好的问题,这个问题非常实际,现实情况下如果确实没有大量数据集,同时也没有合适的预训练模型需要从头训练的时候,ViT架构性能是不如CNN架构的。这篇文章实际上并没有引入大量的卷积操作,通过修改patch size,以及使用SeqPool的方法就可以取得不错的成绩。
2025-11-14 09:40:11
1087
原创 过拟合-深度学习
1.获取更多数据 :从数据源头获取更多数据;数据增强(Data Augmentation)2.使用合适的模型:减少网络的层数、神经元个数等均可以限制网络的拟合能力;3.正则化,在训练的时候限制权值变大;4.dropout;5.BN,每个隐层都进行归一化,使每一层神经网络的输入保持相同分布的,将输入分布强制拉回到均值为0方差为1的比较标准的正态分布,使得非线性变换函数的输入值落入对输入比较敏感的区域,以此避免梯度消失问题;6.限制训练时间;通过评估测试;
2025-11-07 16:52:01
738
原创 多传感器信息融合---深度学习
充分利用不同时间与空间的多传感器数据资源,采用计算机技术对按时间序列获得的多传感器观测数据,在一定准则下进行分析、综合、支配和使用,获得对被测对象的一致性解释与描述,进而实现相应的决策和估计,使系统获得比它的各组成部分更充分的信息。每一个传感器独立提取特征(提取原始数据中有用的特征,把原始数据中没有用的特征或干扰特征滤掉),把这些特征再进行融合,得到一个融合特征。sensor1,2,3,4,5,6,7分别代表7个传感器。现在将这7个传感器得数据直接拼接成1个传感器的数据,实现数据层的融合。
2025-10-19 15:43:04
251
原创 身体活动(physical activity)1---深度学习
选择30名年龄在19-48岁之间的志愿者作为研究对象。记录的运动数据是来自智能手机(特别是三星Galaxy S II)的x、y和z加速度计数据(线性加速度)和陀螺仪数据(角速度),采样频率为 50Hz(每秒50个数据点)。这些数据是从30名年龄在19岁到48岁之间的志愿者身上收集的,这些志愿者将智能手机绑在腰间,进行6项标准活动中的一项,通过开发的手机软件记录运动数据。同时记录每个执行活动的志愿者的视频,后期根据这些视频和传感器数据进行手动标记所属运动类别(类似剪辑视频中的音画同步)。
2025-10-17 20:11:48
715
原创 信号数据(eeg,ecg,心率等)- 深度学习
信号数据在送入网络前都需要对信号数据进行经过处理,降噪,去噪等;对于信号类数据去噪的方法有很多,比如:傅里叶变换,小波变换,中值滤波法等等。左图为去噪前,中间子图为去噪后,右侧子图为去噪前后的对比图。下面时随机生成的信号数据并进行滤波处理的代码。
2025-10-16 15:54:18
216
原创 目标检测数据集(coco格式转换为voc,以PCB数据为例)
VOC数据集全称Visual Object Classes(视觉对象类别)数据集,是一个广泛应用于计算机视觉领域的数据集,特别是在目标检测、图像分割和图像分类等任务中。VOC数据集最初由英国牛津大学的计算机视觉小组创建,并在PASCAL VOC挑战赛中使用,该数据包含大量的带有标注信息的图像,用于训练和评估图像识别算法。COCO(Common Objects in Context)数据集是一个大型的、丰富的图像数据集,广泛用与计算机视觉领域,特别是目标检测、分割、姿态估计和图像标题生成等任务。
2025-07-10 09:44:41
513
原创 pcb印刷电路缺陷检测----数据集准备
PKU-Market-PCB 印刷电路板 (PCB) 瑕疵数据集是一个公共合成 PCB 数据集,包含 1,386 张图像,具有 6 种缺陷(漏孔、鼠咬、开路、短路、杂散、杂铜),可用于图像检测、分类和配准任务。
2025-07-08 17:39:06
2155
原创 pandas---使用教程
如果 CSV 文件的编码不是 UTF-8,可以通过 encoding 参数指定正确的编码。是 Pandas 中用于处理二维表格数据的主要数据结构,类似于电子表格或者数据库中的表。如果列名不符合 DataFrame 的命名规则,可以通过 names 参数指定新的列名。有时,CSV 文件中的某一列可以作为 DataFrame 的索引。如果数据的分隔符不一致,可以使用正则表达式作为 sep 参数的值。如果 CSV 文件列很多,但只需要读取其中的一部分列,可以使用。,这意味着函数会将文件的第一行作为列名。
2025-06-27 16:18:00
250
原创 caj转换pdf 免费在线转换
CAJ转PDF在线免费, CAJ转换成PDF不限大小 - Caj2Pdf在线(https://caj2pdf.cn/),每日支持2次免费转换。(https://iloveofd.cn/caj2pdf),每日支持5次免费转换。二)CAJ2PDF在线工具。单个文件CAJ转换PDF。,进入caj转pdf页面。(三)speedpdf。
2025-06-13 09:14:43
464
原创 数据清洗之处理缺失点
在数据清洗过程中,处理缺失值的方法之一是删除缺失值。这种方法适用于缺失值数量较少或者缺失值对于分析任务的影响较小的情况。删除阈值设置阈值,如果某一行或者列中的缺失值数量超过阈值,则删除该行或者列。数学表达:空值滤波isNull(x) 函数:用于判断参数X是否为空值,空值,返回1;非空,返回0.
2025-05-27 14:55:32
522
原创 时间序列预测----多变量预测(多特征)
LSTM 是一个循环神经网络,能够处理长期以来关系。在执行多元时间序列预测分析时,需要使用多个特征预测未来时间点的特征。模块分解:数据预处理+模型(model)+训练(train)+评估模型。将过去的观测值作为输入,未来的值作为输出。2)创建模型+训练模型。
2025-04-03 08:33:02
902
原创 卷积神经网络来识别音频
本案例实现了一个 Google Speech Commands 数据集的音频分类模型。模型首先加载和预处理数据集,然后训练一个来识别音频标签,并在验证集上进行评估。
2025-01-10 14:18:59
400
原创 3d卷积网络(卷积原理)
的操作,类比到三维卷积,要做的就是把这个3×3×3的过滤器先放到最左上角的位置,这个3×3×3的过滤器有27个数,27个参数就是3的立方。依次取这27个数,然后乘以相应的红绿蓝通道中的数字。图像维度为6×6×3,过滤器为3×3×3,最后一个数字通道数必须和过滤器中的通道数相匹配。
2025-01-07 16:41:41
779
2
原创 数据集划分方法和原则
自助法直接以自助采集法(bootstrap sampling)为基础,给定包含m个样本的数据集D,对其进行采样产生数据集D' ,它的方式是每次从D中挑选一个样本,将其拷贝到D'中,然后再将该样本放入初始数据集D中,使样本在下次采样时仍然可能被采样到,这个过程重复执行m次,得到包含m个样本的数据集D'这就是自助法的结果。的S应该包含350正样本,350负样本,T中则包含150正样本,150负样本,如果S、T中样本类别差别很大,则误差估计将由于训练/测试数据分布得的差异性产生偏差。
2024-12-26 20:39:54
829
原创 特征选择方法
本篇文章给大家总结的十个特征选择方法有:方差阈值法单变量特征选择递归特征消除基于树模型的特征选择L1 正则化嵌入法主成分分析相关系数法信息增益互信息法具体的每种方法,咱们具体看下~
2024-12-12 22:01:28
1673
原创 双分支网络(图像+图像)
网络1为例,进行分析(输入图片的大小为:1*3*32*32)池化:输入(16,30,30)---输出(16,15,15)卷积:输入(3,32,32)---输出(16,30,30)卷积:输入(16,15,15)---输出(8,13,13)两个分支(网络1+网络2)的总特征:288*2=576。池化:输入(8,13,13)---输出(8,6,6)输入图片的尺寸 1*3*32*32为例子。网络1的输出总特征 8*6*6=288。卷积 Conv2d(3,16,3)卷积 Conv2d(16,8,3)
2024-12-05 17:38:55
742
转载 支持向量机
创建一个网格来进行可视化x_min, x_max = X[:, 0].min() - 1, X[:, 0].max() + 1y_min, y_max = X[:, 1].min() - 1, X[:, 1].max() + 1h = (x_max / x_min)/100xx, yy = np.meshgrid(np.arange(x_min, x_max, h),np.arange(y_min, y_max, h))示例:如果我们使用不同的伽玛值,如0,10或100,让我们来查看一下不同的区别。
2024-11-26 14:00:30
176
原创 K折交叉验证(以五折交叉验证为例)
它的基本思想是将原始数据集分成五个相等大小的子集(或折叠),其中四个子集用于训练模型,而剩下的一个子集用于测试模型。1. 不用于不平衡的数据集:正如在 HoldOut 交叉验证的情况下所讨论的,在 K-Fold 验证的情况下也可能发生训练集的所有样本都没有样本形式类“1”,并且只有 类“0”。更好的泛化能力:模型在多次不同的训练和测试集上进行训练和评估,有助于更好地了解模型的泛化能力,即模型对新数据的适应能力。因此我们有5个精度测量值,于是我们取这5个值的平均值,平均值是我们对未知数据集的准确性评估。
2024-11-21 21:17:36
2114
原创 神经网络画图工具
ConvNetDraw是一个使用配置命令的CNN神经网络画图工具;需要了解神经网络结构和代码,就很简单啦!:绘制结果为3D,可简单调整x,y,z这3个维度;:单一、传统、能满足基础需求。
2024-11-20 14:05:04
1102
论文复现-Alzheimer’s Disease stage identification using deep learning models
2025-10-24
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅