- 博客(3)
- 资源 (3)
- 收藏
- 关注
原创 阅读文献:Transformers without Normalization
这篇论文的主题是“没有归一化的Transformer”,也就是在Transformer模型中不使用归一化层,而是用一种叫做Dynamic Tanh(DyT)的方法来替代。听起来挺有意思的,因为归一化层比如Layer Norm(LN)在Transformer里几乎是标配,作者们说可以不用,还能保持甚至提升性能,这有点反直觉。归一化层在传统Transformer中的作用。通常,LN会对每个token的激活值进行归一化,减去均值,除以标准差,然后应用可学习的缩放和平移参数。这有助于稳定训练,加速收敛。
2025-03-28 16:25:31
909
原创 Tensorboard可视化错误:不显示数据 No scalar data was found
学习Tensorboard过程中,按照书本中操作,结果在浏览器中报错:No scalar data was found.通过百度查询,自己琢磨,发现有个小问题觉得写出来供像我这样的菜鸟注意。我的环境是:window,Anaconda2底下安装python2.7,又加装了tensorfow环境和Python3.51、使用Jupyter Note book写代码注意相对路径:writer = tf.s...
2018-02-12 20:28:30
4536
4
转载 PASCAL VOC
参考网页:http://www.360doc.com/content/13/0517/10/1054746_286033689.shtml PASCAL VOC(pattern analysis,statistical modelling and computational learning visual object classes)模式分析,统计建模,计算学习
2017-01-11 15:38:15
461
IIC读写AT24C02(proteus仿真at89c52)
2012-08-27
DS1302实时时钟
2012-08-27
全国大学生电子设计大赛题目
2009-08-04
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人