
神经网络
文章平均质量分 84
夏树让
记录
展开
-
使用 Pytorch 训练深度学习模型时常用的功能代码(保持更新)
使用 Pytorch 时常用的功能代码:固定随机种子;保存与加载模型参数、优化器状态等;正则化 EarlyStopping;超参的随机搜索 (random search)原创 2022-06-09 11:27:05 · 1636 阅读 · 0 评论 -
多任务学习为什么有效?
多任务学习(Multi-task Learning, MTL)为什么有效?我们可将 MTL 看作是 **归纳迁移**(inductive transfer)的一种形式,归纳迁移通过引入 **归纳偏置**(inductive bias)来提升模型性能原创 2021-04-21 12:42:37 · 2621 阅读 · 0 评论 -
Pytorch 中的 eval 模式,train 模式 和 梯度上下文管理器 torch.no_grad
前言本文将简要说明下 Pytorch 中模型的 评估模式 (eval),训练模式 (train) 和 torch.no_grad 梯度计算上下文管理器的区别与作用原创 2021-03-24 10:37:57 · 4187 阅读 · 2 评论 -
NLP 中的数据增强
NLP 常用数据增强方法:同义词替换(Synonym Replacement) 、回译(Back Translation)、文本生成(Text Generation)原创 2020-11-29 21:02:31 · 2394 阅读 · 0 评论 -
FastBERT——自蒸馏模型与自适应调整推断时间技术
通过了解,我发现 FastBERT 更有趣些,它采用 **自蒸馏** (self-distilling)技术,即整个蒸馏过程仅需要单个模型,该模型即是老师又是学生,与以往的需要两个模型的蒸馏方案不同(如DistilBERT、TinyBERT),而且它能根据样本的难易程度 **适应性地调整推断时间** (adaptive inference time)。所以本文接下来重点介绍 FastBERT.原创 2020-10-17 18:06:34 · 1897 阅读 · 0 评论 -
各类注意力机制的介绍 (Intra & Inter & Soft & Hard & Global & Local Attention)
注意力机制(Attention Mechanisms),intra-attention 与 inter-attention,soft-attention 与 hard-attention,global-attention 与 local attention.原创 2020-09-06 21:30:03 · 7263 阅读 · 2 评论 -
numpy.array 以整数数据初始化数组后造成的精度损失问题
numpy.array的数据类型dtype问题:以整数数据初始化数组后,重新赋值浮点数(小数)后,数据精度降低。原创 2019-10-12 18:51:27 · 3268 阅读 · 0 评论 -
神经网络正则化方法——Dropout
本文详细描述了 Dropout,介绍了 Dropout 的提出背景、基本概念、设计动机以及实现的一般方法。由于训练集或多或少会存在一些噪音,而且无法保证训练集能够准确反映样本的真实分布,所以在训练集上的过分拟合会造成神经网络泛化能力的不足,在测试集上表现远不如其在训练集上的表现,而我们往往更关注于前者。为了缓解这个问题,就需要采取一些正则化措施(regularization),在保证模型足够强大的同时避免模型过拟合(over-fitting)。原创 2020-03-27 20:14:29 · 2341 阅读 · 0 评论 -
为什么 dot-product attention 需要被 scaled?
在 Attention Is All You Need 这篇经典论文中,有提到两种较为常见的注意力机制:additive attention 和 dot-product attention。并讨论到,当 $d_k$ 较大时,additive attention 要优于 dot-product attention,这其中的原因是什么?为什么采用 scaled dot-product attention?原创 2020-03-23 14:01:16 · 31647 阅读 · 22 评论 -
NLP 领域的一些学习资源(保持更新)
样本不均衡分类问题的书籍、论文和工具库。自然语言处理(NLP)领域语料数据库。事件抽取(Event Extraction)相关论文。预训练中文词向量。原创 2020-05-22 21:33:31 · 468 阅读 · 0 评论 -
在 Pytorch 中实现 early stopping
在 Pytorch 中实现 early stopping原创 2019-12-20 22:19:05 · 27517 阅读 · 35 评论 -
在 Pytorch 中实现超参的 random search
在 pytorch 中实现超参的随机搜索 random search原创 2019-12-20 21:01:03 · 11119 阅读 · 20 评论 -
Sigmoid型函数梯度消失、“死亡”ReLUs 和 RNNs梯度爆炸问题
Sigmoid型函数的梯度消失问题;死亡ReLU问题;RNNs梯度爆炸问题。原创 2019-10-11 16:45:13 · 3856 阅读 · 0 评论