
深度学习
eunicechen
机器学习、深度学习、图像处理
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Bert pre-train 代码
目录Pre-train主体代码结构Initial ConfigBuild modelMasked LM预测Next Sentence 预测Bert主体Input_fnInitial EstimatorTrainPre-train主体代码结构def main(_): tf.logging.set_verbosity(tf.logging.INFO...原创 2018-12-05 15:46:20 · 1918 阅读 · 0 评论 -
Bert使用的激活函数:gelu---高斯误差线性单元
Bert Transfromer结构中使用了这个激活函数---gelu(Gaussian error linear units,高斯误差线性单元),Gelu在论文中已经被验证,是一种高性能的神经网络激活函数,因为GELU的非线性变化是一种符合预期的随机正则变换方式(这句话,说实话,我翻译自原论文,具体怎么理解呢?我自己是如下理解的)。激活函数的作用:给网络模型加入非线性因子,这...原创 2018-12-03 17:49:25 · 15157 阅读 · 0 评论 -
BERT混合精度
Nvidia提的混合精度方案的pr,在cuda9.0上几乎没有加速效果,在cuda9.2及以上版本才有加速效果。仔细阅读源码后 发现,pr中的混合精度的修改只涉及到输入输出部分,transformer_model整体部分并没有做混合精度的改写,所以光从源码程度的混合精度,并不会明显的速度提升。问题来了:为什么cuda9.2及以上版本能有明显的速度提升?Answer: cuda9.2及以...原创 2019-01-10 17:35:00 · 1313 阅读 · 0 评论 -
zz: illustrator-BERT
留存,解释的很棒的文章http://jalammar.github.io/illustrated-bert/转载 2019-01-24 21:19:25 · 288 阅读 · 0 评论