AI
文章平均质量分 85
跟AI有关的,包括深度学习,机器学习等
理智点
如需联系 leezed525@qq.com
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
3 mnist gan小试牛刀
输入: 噪声 Z,维度为 [B, latent_dim, 1, 1] (经过全连接层后)# 经过全连接层将噪声向量转换为适合反卷积的维度# 将一维向量 reshape 成特征图nn.Unflatten(1, (256, img_size // 4, img_size // 4)), # 256 是通道数,img_size//4 是 H 和 W# 反卷积层 1: 256x7x7 -> 128x14x14# 反卷积层 2: 128x14x14 -> 64x28x28。原创 2025-06-11 15:46:48 · 941 阅读 · 0 评论 -
2. 手写数字预测 gui版
这里的预训练权重就直接用了上一篇文章中训练出来的权重,还给她放到cuda上了,不过这么小的模型其实放不放其实都无所谓,没有太大的影响。还有其中的4大部分都是开口的,并没有闭合4上面的开口,导致写一个很标准的4反倒有时候会预测出错,还有其他的一些问题我就不赘述了。这是mnist数据集中的数据,可以看出这里的0大部分都是上面闭合,导致模型预测奇怪位置的闭合的0会失准。目前的画布是白色的,画笔是黑色,但是mnist数据集的底是黑色的,画笔是白色的,因此需要使用。总之如果想要模型想要获得更好的表现,原创 2025-05-31 15:28:12 · 421 阅读 · 0 评论 -
1. pytorch手写数字预测
这里我准备了两个模型,一个MLP模型和一个简单地CNN模型,其中MLP模型参数量1M,CNN模型参数量大概8M,当然这俩模型也没有很仔细的规划return xx = x.view(B, -1) # 展平return x。原创 2025-05-30 21:25:13 · 562 阅读 · 0 评论 -
关于transformer中关于位置编码position encoding的思考
但是随之而来的问题是,随着序列长度的变化,序列中的相对距离也产生了变化,用简单地整型值来做位置编码,序列中的相对距离变化也是1 * 距离长度, 但是用当前这种方法,在面对不同长度的序列是,相对距离就不是固定的了。对于transformer中的位置编码,我对他一直有很多不解,但是也没有一直深挖下去,今天偶然看见一篇很好的文章,感触颇多,故在此记录一下,加深印象,同时分享。有一个最简单的思路来设计位置编码,那就是我按照顺序,一个一个加,L1我添加数值1作为其位置编码,L2我添加数值2作为位置编码,以此类推。原创 2025-03-18 13:21:33 · 911 阅读 · 0 评论 -
几种常见的激活函数解析
纯粹的多层线性层堆叠,在不引入激活函数的情况下,其本质基本等同于单层线性层,这也导致了多层线性层无法解决非线性问题,例如一个很经典的问题,异或问题,但是在引入激活函数后,神经网络就可以轻松地解决这个问题。:在反向传播过程中,当输入x>0时,ReLU的梯度为1,不会像Sigmoid和Tanh那样出现梯度逐渐缩小的情况,从而有助于深层网络的训练。:当输入x长期为负时,ReLU的输出恒为0,梯度也为0,导致这些神经元在训练过程中无法更新权重,永久失去作用,降低了模型的有效容量。如果α设置过大,函数可能过于线性;原创 2025-03-17 22:56:30 · 1076 阅读 · 0 评论
分享