
python深度学习
文章平均质量分 95
冲冲冲(ಡωಡ)
这个作者很懒,什么都没留下…
展开
-
Transformer笔记
Transformer模型笔记Encoder-Decoder架构Attention模型Attention的原理Attention机制的本质思想Attention优缺点Self-Attention模型Transformer原理Transformer整体结构Transformer的inputs输入Transformer的EncoderTransformer的DecoderTransformer Decoder的输入基于Encoder-Decoder的Multi-Head Attention。原创 2023-10-08 17:17:42 · 125 阅读 · 0 评论 -
Python深度学习-基于pytorch-2
在训练模型过程中,经常会出现刚开始训练时,训练和测试精度不高(或损失值较大),然后通过增加迭代次数或通过优化,训练精度和测试精度继续提升,如果出现这种情况,当然最好。现在,如果要最小化这个新的损失函数,应要让,和04尽可能的小。因为如果你在原有损失函数的基础上加上10000乘以,这一项,那么这个新的损失函数将变得很大,所以,当要最小化这个新的损失函数时,将使。,该模块提供了常用的初始化策略,如xavier、kaiming等经典初始化策略,使用这些初始化策略有利于激活值的分布呈现出更有广度或更贴近正态分布。原创 2022-10-17 21:22:11 · 1782 阅读 · 1 评论