深度学习
文章平均质量分 53
发奋图强强强
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
深度学习-2:数据向量化
在逻辑回归中,x,w,b都是列向量,若要计算w.T*x+b,不向量化的话就需要for循环计算起来很麻烦。向量化后,使用numpy.dot(w,x)函数即可快速计算。原创 2024-10-20 22:21:06 · 463 阅读 · 0 评论 -
深度学习-1:逻辑回归和梯度下降
我们想要得到该输入是猫图的概率,也就是希望y_hat是一个0-1之间的值,但w.T*x+b所得值往往不为0-1之间的概率,所以使用sigmoid函数对w.T*x+b进行变换,输出一个概率值,w.T*x+b越大,输出概率越接近于1。学习算法旨在学习到合适的w和b使J获得最小值,对w和b进行初始化后,利用梯度下降法对w和b进行更新,以获得最小的J值。J,dw1,dw2,db作为累加器,记录一次迭代中多个样本损失,梯度总和,然后求这些值的平均值,对参数进行更新。以下图为例,将使J值最小的W值成为Wmin。原创 2024-10-20 21:57:03 · 556 阅读 · 0 评论 -
批量归一化Batch Norm
对于第三层隐藏层来说,要不断地学习更新参数将作为输入的a1,a2,a3,a4映射到一个正确的y_hat,但是在网络学习中,前面的层的参数也在变化,导致第三层隐藏的输入的数据一直也在变化,这涉及到协变量问题,通过引入BN层,可减少这些隐藏单元值的分布的不稳定性,使数据分布一直保持相同的均值和方差,减少了后面层对前面层的依赖,允许网络每一层独立学习。添加了BN层的网络,每层要学习的参数变成了4个,卷积或全连接层的w和b,BN层的拉伸和偏移参数。批量规范化层和暂退层一样,在训练模式和预测模式下计算不同。原创 2024-10-20 10:11:09 · 465 阅读 · 0 评论 -
归一化输入
当输入的不同的特征取值范围差异过大,取得对应参数差别也会很大,在对参数进行优化的过程中,参数小的维度步长较小,参数大的维度步长较大,优化过程中路径曲折,将输入归一化,使特征取值范围差别小,对应的参数范围差距小,优化起来更快速。算出特征均值,用特征的每个元素-对应均值。即可得到均值为0,方差为1的特征分布。算出对应方差,使用特征元素除方差。对于特征范围差别不大的无需归一化。原创 2024-10-19 14:55:55 · 321 阅读 · 0 评论 -
正则化-权重衰减
另一种思维就是若将总的损失看作是损失和正则项的总和,想要总的损失最小,就需要在损失和正则项之间找到一个平衡,正则项限制了参数的取值范围,防止参数取值过大。当添加正则项,若正则项前面的参数过大,要想减小损失函数的值只能是w趋于0,w趋于0减少了神经网络中神经元的影响,相当于屏蔽了一些神经元,使网络变得简单。以激活函数tanh为例,z=xw+b,正则化参数大,w小,z就小,激活范围就在原点周围,类似于线性函数,无法表示复杂的决策函数,减轻了过拟合。若添加了正则化项,反向求梯度的时候也要对正则化项求导。原创 2024-10-19 09:21:06 · 327 阅读 · 0 评论 -
6 卷积神经网络
图像中拥有丰富的结构,而这些结构可以被人类和机器学习模型使用。卷积神经网络(convolutional neural networks,CNN)是机器学习利用自然图像中一些已知结构的创造性方法。6.1.1 空间不变性在机器学习中,空间不变性通常与卷积神经网络(CNN)相关联。空间不变性包含平移不变性平移不变性使得CNN在处理图像数据时非常有效,因为它们可以识别出图像中的目标,而不管这些目标位于图像的哪个位置。卷积网络中,卷积层的权重被称为卷积核。原创 2024-10-15 21:22:38 · 800 阅读 · 0 评论 -
5.深度学习计算
若想访问某层的参数,用层来调用state_dict()函数。由于需要目标函数对参数求梯度进行优化,所以需要记录梯度。所以各层的参数也具有属性grad,梯度初始化为None。每个网络都由各层组成,一个网络模块中的层可由索引访问。使用named_parameters()访问所有参数。操作符用于将列表中的每个元组作为独立的参数传递给。网络中的参数一般是指各层权重和偏置。5.2.1.2 一次性访问所有参数。函数会直接打印列表中的元组。各层或者整个模型都可以调用。可直接对各层参数进行调用。5.2.1 参数访问。原创 2024-10-15 20:10:48 · 659 阅读 · 0 评论 -
MLP多层感知机
每个全连接层都可看作是一个仿射变换,但有些输入输出之间的关系用单个仿射变换不能描述,则需要多层,于是在输入输出之间引入隐藏层。原创 2024-10-15 15:44:14 · 789 阅读 · 0 评论 -
2024/9/26 day1 动手学习深度学习
正态分布(Normal distribution)又名高斯分布。数组切片:[start:end:step]矩阵实际上就是将被乘向量的空间进行扭曲。原创 2024-09-30 10:51:50 · 184 阅读 · 0 评论
分享