
Pytorch
circle_yy
努力成为大神的小菜鸡
展开
-
动手学 Task08:文本分类;数据增强;模型微调
文本分类文本情感分类文本分类是自然语言处理的一个常见任务,它把一段不定长的文本序列变换为文本的类别。本节关注它的一个子问题:使用文本情感分类来分析文本作者的情绪。这个问题也叫情感分析,并有着广泛的应用。同搜索近义词和类比词一样,文本分类也属于词嵌入的下游应用。在本节中,我们将应用预训练的词向量和含多个隐藏层的双向循环神经网络与卷积神经网络,来判断一段不定长的文本序列中包含的是正面还是负面的情...原创 2020-02-25 19:30:10 · 451 阅读 · 1 评论 -
动手学 Task07:优化算法进阶;word2vec;词嵌入进阶
优化算法进阶11.6 Momentum在 Section 11.4 中,我们提到,目标函数有关自变量的梯度代表了目标函数在自变量当前位置下降最快的方向。因此,梯度下降也叫作最陡下降(steepest descent)。在每次迭代中,梯度下降根据自变量当前位置,沿着当前位置的梯度更新自变量。然而,如果自变量的迭代方向仅仅取决于自变量当前位置,这可能会带来一些问题。对于noisy gradient...原创 2020-02-25 19:00:41 · 289 阅读 · 0 评论 -
动手学 Task06批量归一化和残差网络+凸优化+梯度下降
批量归一化和残差网络批量归一化(BatchNormalization)对输入的标准化(浅层模型)处理后的任意一个特征在数据集中所有样本上的均值为0、标准差为1。标准化处理输入数据使各个特征的分布相近批量归一化(深度模型)利用小批量上的均值和标准差,不断调整神经网络中间输出,从而使整个神经网络在各层的中间输出的数值更稳定。1.对全连接层做批量归一化位置:全连接层中的仿射变换和激活函数...原创 2020-02-25 18:43:39 · 151 阅读 · 0 评论 -
动手学 task5 卷积神经网络基础;leNet;卷积神经网络进阶
卷积神经网络基础二维卷积层填充和步幅我们介绍卷积层的两个超参数,即填充和步幅,它们可以对给定形状的输入和卷积核改变输出形状。填充公式:总的计算公式:总结:最后一个公式相比前一个公式没有加1的操作,乍一看公式不同(即什么时候加1什么时候不加1)其时,对第二个公式分解一下,即可归纳出什么时候都需要加1的操作。这样便于记忆)多输入通道和多输出通道¶代码:print(X....原创 2020-02-18 16:49:22 · 318 阅读 · 1 评论 -
动手学 Task04:机器翻译及相关技术;注意力机制与Seq2seq模型;Transformer
机器翻译和数据集机器翻译(MT):将一段文本从一种语言自动翻译为另一种语言,用神经网络解决这个问题通常称为神经机器翻译(NMT)。 主要特征:输出是单词序列而不是单个单词。 输出序列的长度可能与源序列的长度不同。Encoder-Decoder¶Sequence to Sequence模型¶Beam Search¶完整代码:import syssys.path.append('...原创 2020-02-18 16:17:28 · 348 阅读 · 0 评论 -
动手学 task03 过拟合、欠拟合及其解决方案+梯度消失、梯度爆炸+循环神经网络进阶
过拟合、欠拟合及其解决方案过拟合和欠拟合一类是模型无法得到较低的训练误差,我们将这一现象称作欠拟合(underfitting);另一类是模型的训练误差远小于它在测试数据集上的误差,我们称该现象为过拟合(overfitting)。 在实践中,我们要尽可能同时应对欠拟合和过拟合。虽然有很多因素可能导致这两种拟合问题,在这里我们重点讨论两个因素:模型复杂度和训练数据集大小。模型复杂度与过拟合...原创 2020-02-18 15:38:05 · 512 阅读 · 0 评论 -
动手深度学习 task2(文本预处理+语言模型+循环神经网络)
1.文本预处理文本预处理步骤:读入文本分词建立字典,将每个词映射到一个唯一的索引(index)将文本从词的序列转换为索引的序列,方便输入模型读入文本的代码:import collectionsimport redef read_time_machine(): with open('/home/kesci/input/timemachine7163/timemachi...原创 2020-02-14 17:29:22 · 172 阅读 · 0 评论 -
pyTorch动手深度学习(线性回归、Softmax与分类模型、多层感知机)
线性回归:知识点:平方损失函数(用来评估评为 i 的样本误差)优化函数-随机梯度下降当模型和损失函数形式较为简单时,上面的误差最小化问题的解可以直接用公式表达出来。这类解叫作解析解(analytical solution)。线性回归和平方误差刚好属于这个范畴。然而,大多数深度学习模型并没有解析解,只能通过优化算法有限次迭代模型参数来尽可能降低损失函数的值。这类解叫作数值解(nume...原创 2020-02-14 15:07:55 · 378 阅读 · 0 评论 -
pyTorch多GPU训练
首先指定GPU,如下代码:import osos.environ["CUDA_VISIBLE_DEVICES"] = "1,2"进行指定使用设备,这样会修改pytorch感受的设备编号如上则把device:1改为device:0,device:2改为device:1,则pytorch感知的编号还是从device:0开始,指定使用程序为:torch.nn.DataParallel(mode...原创 2020-01-03 14:16:28 · 181 阅读 · 0 评论 -
Pytorch CUDA out of mermory问题方案
先使用with torch.no_grad():然后使用:torch.cuda.empty_cache()删除部分缓存具体代码如下:with torch.no_grad(): torch.cuda.empty_cache() checkpoint = torch.load(args.checkpoint)#载入读取的内容亲测可以~...原创 2019-09-21 20:36:04 · 134 阅读 · 0 评论