
深度学习
Track48
zhengzhaozuo
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
df节省内存函数
通过改变每一条数据的数据类型来节省内存结果:-- Mem. usage decreased to 5.56 Mb (50.0% reduction),time spend:0.00 min-- Mem. usage decreased to 174.98 Mb (74.9% reduction),time spend:1.30 min可以看出,优化还是挺棒的代码:import pandas as pdimport numpy as npimport time# 节约内存..原创 2020-12-24 15:17:25 · 660 阅读 · 0 评论 -
new optimization
new optimizer for deep learning1、SGD2、SGD with momentum前一步的累积会移动到下一步当中,就算达到鞍点和局部最低点,带有动量的SGD还是会继续前行,下一步的movement等于: -u*梯度+v*动量3、Adagrad即在梯度方向乘了一个数,如果过去的梯度很大,就要降低学习率,因为梯度很大,说明在一个很崎岖的路上寻找全局最低,比如上面图的绿色方向,梯度比较大,所以需要用一个比较小的学习率4、RMSProp原理和Adagr原创 2020-12-06 10:39:17 · 277 阅读 · 0 评论 -
RNN梯度爆炸与梯度消失
矩阵层之间的梯度对应的n*n矩阵又被称为雅克比矩阵。当雅可比矩阵的最大特征值大于1时,随着离输出越来越远,每层的梯度大小呈指数增长,导致梯度爆炸;反之当最大特征值小于1时,梯度大小会指数减小,即梯度消失。梯度消失意味着无法通过增加网络层次来提升预测效果,只有靠近输出的那几层才起到真正学习的作用,因此RNN很难学习到输入序列的长距离依赖。梯度爆炸可以用梯度裁剪来缓解,当大于某个阈值的时候,对梯度进行等比缩放。而梯度消失需要通过对模型进行调整,前馈神经网络可以通过残差网络来解决,而RNN只能 通过改.原创 2020-11-19 02:48:07 · 685 阅读 · 0 评论 -
Bert
介绍了Transformer,下一个就是Bert,一个巨大成功的预训练模型,上图Bert全名为Bidirectional Encoder Representations from Transformers,E1...En是单个字或者词,大部分都是字为单位,Trm是一个transformer,T1...Tn是最终计算的隐藏层。因为再注意力矩阵中每个词都能学习到句子中其他词的相关程度,所以是双向。没有用到decoderBert有两个训练目标:第一个任务:MaskedLM随机15%遮盖并...原创 2020-11-06 21:38:00 · 634 阅读 · 0 评论 -
Transformer
Transformer是一种Seq2Seq模型,Bert就是从Transformer衍生出来的一种模型,在一些NLP任务上已经超过了人类表现。应用方式主要是:第一先训练出预训练模型,第二步是把预训练模型应用到下游任务中和LSTM区别:LSTM的训练是一种迭代方法,必须要等到上一个字过完LSTM单元才可以处理下一个单元的内容,但是Transformer是可以进行并行化的处理的,所有的字全部一起进行训练,大大加快了训练的效率;通过位置嵌入positional encoding 来理解语言的顺序学习到原创 2020-11-06 19:17:15 · 494 阅读 · 0 评论 -
Pytorch 学习2
1、torch.range(num1,num2)莫名其妙,pytorch这个range函数和python内嵌的不一样,是[ start , end ]第一,必须有两个参数第二,包括第二个参数2、tensor.unsqueeze(dim )在第dim维外增加一个维度,比如原来是(2,3),假如dim是0,输出是[1,2,3],假如dim是1,输出是[2,1,3],假如是2,输出是[2,3,1]3、tensor.squeeze(dim)可以减掉维度,但是只有维度为1时才.原创 2020-10-24 00:03:04 · 173 阅读 · 0 评论 -
Pytorch 学习1
1、torch.manual_seed(int):在神经网络中,参数默认是进行随机初始化的。如果不设置的话每次训练时的初始化都是随机的,导致结果不确定。如果设置初始化,则每次初始化都是固定的。def manual_seed(seed): r"""Sets the seed for generating random numbers. Returns a `torch.Generator` object. Args: seed (int): The ...原创 2020-10-16 11:31:41 · 312 阅读 · 0 评论 -
UNILM 统一预训练模型 v1.0
这篇paper是研究生读的第一篇,过了蛮久了,因为准备重新写博客,所以拿出来回顾一下之前还给这篇做了PPT,paper名字是Unified Language Model Pre-training for Natural Language Understanding and Generation ,可以翻译成用作NLU和NLG的统一预训练模型,这篇论文是2019年发表的在NLP领域有些成就的一篇文章。0、Abstract本文介绍了一种可同时被NLU和NLG任务微调的预训练模型,使用了三种不用的语言原创 2020-10-15 15:29:44 · 1046 阅读 · 1 评论 -
Pytorch tutorial pytorch 入门
今天看了pytorch官方的tutorial,好美的教程哦,按规定是60min分钟的闪电战,结果运行完代码,花了一整天,是我不配,网站官方地址是:https://pytorch.org/tutorials/beginner/deep_learning_60min_blitz.html这篇tutorial主要分为四个部分:1、什么是Tensor,和Tensorflow介绍差不多2、自动求梯度(微分)3、神经网络架构4、以一个图像分类作为example实战1、WHAT IS PYT.原创 2020-10-15 12:43:06 · 2172 阅读 · 1 评论 -
IID独立同分布假设
1.独立同分布independent and identically distributed (i.i.d.)在概率统计理论中,如果变量序列或者其他随机变量有相同的概率分布,并且互相独立,那么这些随机变量是独立同分布。在西瓜书中解释是:输入空间中的所有样本服从一个隐含未知的分布,训练数据所有样本都是独立地从这个分布上采样而得。2.简单解释独立、同分布、独立同分布(...转载 2020-04-01 21:11:30 · 3626 阅读 · 0 评论