自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(16)
  • 收藏
  • 关注

原创 扩散模型DDPM

DDPM是Denoising(去噪) Diffusion Probabilistic Mode的缩写我们首先定义一个前向传播过程,给定一张原始的图x0 我们通过梯次加噪 每一次往图片中加入一些噪点 经过T此之后 可以得到一张噪声 我们设想 是否有一个反向传播的过程 能够从噪声恢复到原图 如下Denoising指的就是反向传播一个逐步去噪的过程Diffusion指的是每张图片逐步进行去噪过程 不是一步到位直接去噪成原图的。

2025-03-16 13:45:29 611

原创 Transformer从零详细解读

输入汉字:我爱你 到Transformer中处理后会得到一个输出的结果:I LOVE YOU对Transformer进行细化:TRM结果可以分文两部分 一部分是Encoders(编码器) 一部分是Decoders(解码器) 简单的流程就是 "我爱你"输入到Encoders中处理后作为Decoders的输入 处理后输出"I LOVE YOU"进一步细化: 需要注意 Encoder有6个结构完全相同的小Encoder,Decoder也是由6个结构完全相同的小Decoder组成,数字可以是自己定 这6个解码器和

2024-12-09 12:43:44 1603

原创 BI(Bilinear interpolation)双线性插值实现上采样

在深度学习中 上采样是将图像放大如上图所示 要求放大后的图像坐标(2,1)处的像素值 要找到目标图像中对应的原图像素 需要与扩大前和扩大后的边长比相乘得到一个坐标(1.5,0.75) 对应原图中没有一个像素点是重合的 蓝色框框的像素值与红色框框的四个点的像素值有关 相关的计算方法就需要用到双线性插值。

2024-11-15 20:51:41 920

原创 遗传算法(Genetic Algorithm)详解

遗传算法是用于解决问题的一种搜索算法。,将该理论以算法的形式表现出来就是遗传算法的过程。

2024-11-08 15:42:29 828

原创 图片分割--UNet

卷积板块#第一个卷积#padding_mode='reflect':填充的是镜像数值 比如第一行第一个数是1 第二行第1列是2 那么在第一行上面填充的值就是以1为中心对称的数字2#可以将填充的数值也作为特征 加强特征提取的能力#第二个卷积padding_mode='reflect':填充的是镜像数值 比如第一行第一个数是1 第二行第1列是2 那么在第一行上面填充的值就是以1为中心对称的数字2,可以将填充的数值也作为特征 加强特征提取的能力#下卷积采样#上采样#输出#拼接。

2024-11-02 17:44:40 1299 2

原创 卷积神经网络评价指标

1. 性能评估:评价指标提供了一种量化的方式来衡量CNN模型的性能。通过这些指标,我们可以,比如图像分类、目标检测或图像分割等。2. 模型比较:不同的模型架构或训练策略可能会产生不同的性能结果。评价指标允许我们在同一标准下,从而选择最适合特定任务的模型。3. 超参数调优:在模型训练过程中,评价指标可以帮助我们。例如,通过调整学习率、批量大小、网络深度等超参数,我们可以观察到评价指标的变化,从而找到最优的模型配置。4. 模型选择:在有多个预训练模型可供选择时,评价指标可以帮助我们我们的特定任务。

2024-10-25 20:46:47 1632

原创 DCGAN的原理(附代码解读)

定义生成器stride=1,padding=1)stride=2,padding=1)stride=2,padding=1)定义了一个全连接层(也称为线性层),输入特征数为100,输出特征数为。这通常是将一个随机噪声向量(大小为100)映射到一个更大的空间,以便后续的反卷积层可以将其转换为图像。定义了一个一维批量归一化层,用于对linear1层的输出进行归一化,以加速训练过程并提高模型的稳定性。定义了一个反卷积层(也称为转置卷积层),用于将特征图的大小上采样(放大)。

2024-10-22 21:02:30 2999 2

原创 学DCGAN对抗网络之前--转置卷积(附代码解读)

了解DCGAN需要学习一下转置卷积转置卷积和之前学的卷积的区别是转置卷积是上采样,普通的卷积是下采样上采样和下采样:就是经典的下采样,将一张图片缩小,采用不同的方法将像素点合并从而获得更小分辨率的照片就叫做下采样。上采样:也叫做图像插值上采样就和下采样反过来,将一张照片放大,在像素点之间根据放大倍数,以插值的形式插入像素值从而达到放大图像的目的。关于卷积可以查看。

2024-10-22 13:36:02 1192

原创 GAN对抗网络(代码详细解读)

从判别器D的角度 希望最大化 V(D,G)从生成器G的角度 希望最小化 V(D,G)GAN的应用领域1.图像生成生成一些假的数据 比如海报中的人脸2.图像增强从分割图生成假的真实街景 方便训练无人汽车3.风格化和艺术的图像创造转换图像风格 修补图像4.声音的转换一个人的声音转为另一个的声音 去除噪音等。

2024-10-20 15:30:08 5034

原创 LSTM反向传播及公式推导

先回顾一下正向传播的公式:化简一下:反向传播从下到上逐步求偏导:对zt求偏导(预测值和标签值相减):zt对未知数wt,ht,bt分别求偏导:ht对ot,Ct求偏导:ot对Net0求偏导:Net0对w0,b0求偏导:....总体的思路就是那个公式从下到上逐步对未知数求偏导:下面是总体的流程。

2024-10-19 14:36:08 430

原创 LSTM正向传播代码

详细解读一下LSTM的正向传播代码,方便理解LSTM

2024-10-16 19:39:00 1578

原创 LSTM基本原理

RNN: RNN的核心是一个循环单元,它在序列的每个时间步上执行相同的任务,同时保留一些关于之前步骤的信息。RNN的这个结构使其理论上能够处理任意长度的序列。LSTM: LSTM是RNN的一个变种,它包含特殊的结构称为“门”(Gates)。这些门(遗忘门、输入门和输出门)帮助网络决定信息的添加或移除,这使得LSTM能够更有效地学习长期依赖性。

2024-10-13 16:19:38 2029

原创 RNN的前向传播

zt:t-1时刻的隐层状态(ht-1)乘上对应的隐藏状态权重矩阵(U) 再加上t时刻输入的X和权重参数矩阵W相乘 就是隐藏层的净输入ht:对计算的zt添加一个激活函数tanh激活函数这里有个问题为什么CNN的激活函数使用relu,RNN的激活函数使用tanh?CNN使用ReLU激活函数的原因是ReLU能够更好地处理卷积层输出中的非线性特征,他的导数是0或1,避免和Sigmoid函数出现一样的问题:当输入值非常大或非常小的时候容易出现梯度消失的问题。

2024-10-08 20:31:52 1561

原创 矩阵相乘的要求

首先,两个矩阵要是想相乘需要满足,第一个矩阵的列数等于第二个矩阵的行

2024-10-08 20:29:53 1370

原创 #深度学习继卷积之后—RNN

细想BP算法,CNN 我们会发现, 他们的输出都是只考虑前一个输入的影响而不考虑其它时刻输入的影响, 比如简单的猫,狗,手写数字等单个物体的识别具有较好的效果. 但是, 对于一些与时间先后有关的, 比如股票的每日涨跌,文档前后文内容的预测等, 这些算法不是很适合出列这些,所以RNN就出现了。

2024-10-05 15:13:45 1163

原创 #深度学习到卷积

卷积的作用就是对于不同的区域得到的特征是不一样的 然后选择一种计算的方法 对于每一个小区域计算它应该的特征值是多少。

2024-09-29 17:18:07 2348 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除