- 博客(4)
- 资源 (1)
- 收藏
- 关注
原创 扩散模型学习笔记2
PyTorch 就会把梯度累积(加和)起来,这样多个批次的数据产生的更新信号就会被高效地融合在一起,产出一个单独的(更好的)梯度估计用于参数更新。(1)考虑因素1:我们这里使用的 batch size 很小(只有 4),因为我们的训练是基于较大的图片尺寸的(256px),并且我们的模型也很大,如果我们的 batch size 太高,GPU 的内存可能会不够用了。(3)考虑因素3:*即使这样,我们的训练还是挺慢的,而且每遍历完一轮数据集才打印出一行更新,这也不足以让我们知道我们的训练到底怎样了。
2023-10-27 23:12:44
183
原创 扩散模型学习笔记
一些UNet的设计在每个阶段都有复杂的blocks,但对于这个玩具demo,我们只会构建一个最简单的示例,它接收一个单通道图像,并通过下行路径上的三个卷积层(图和代码中的down_layers)和上行路径上的3个卷积层,在下行和上行层之间具有残差连接。扩散模型(diffusion models)属于无监督生成模型,而关于生成模型的研究浩如烟海,例如耳熟能详的生成对抗网络(GAN)、变分自编码器(VAE)、流模型(Flow)、玻尔兹曼机(Boltzman Machine)、自回归模型等。
2023-10-19 18:17:33
767
原创 动手学深度学习Task03-Task05
过拟合、欠拟合及其解决方案过拟合和欠拟合一类是模型无法得到较低的训练误差,我们将这一现象称作欠拟合(underfitting);另一类是模型的训练误差远小于它在测试数据集上的误差,我们称该现象为过拟合(overfitting)。L2 范数正则化(regularization)L2 范数正则化在模型原损失函数基础上添加L2范数惩罚项,从而得到训练所需要最小化的函数。L2范数惩罚项指的是模...
2020-02-18 17:40:43
386
原创 动手学深度学习Task01-Task02:线性回归;Softmax与分类模型;多层感知机;文本预处理;语言模型;循环神经网络
线性回归模型price=warea⋅area+wage⋅age+b数据集我们通常收集一系列的真实数据,例如多栋房屋的真实售出价格和它们对应的面积和房龄。我们希望在这个数据上面寻找模型参数来使模型的预测价格与真实价格的误差最小。在机器学习术语里,该数据集被称为训练数据集(training data set)或训练集(training set),一栋房屋被称为一个样本(sample),其真实售...
2020-02-14 12:53:48
268
1
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人