
Transformer
文章平均质量分 94
Transformer
陈 洪 伟
这个作者很懒,什么都没留下…
展开
-
GPT中的Transformer架构以及Transformer 中的注意力机制
看了两个比较好的视频,简单做了下笔记。原创 2024-04-11 15:33:04 · 2146 阅读 · 0 评论 -
Transformer的Decoder的输入输出都是什么
decoder input: Encoder input(我有一只猫) + start [---I have a cat /end--- masked]decoder input: Encoder input(我有一只猫) + start I [---have a cat /end--- masked]训练时,decoder的并行计算是指 翻译第i+1个单词无需等待第i个单词的输出,因为训练时知道所有训练数输入数据的真实标签值,无需等待,可并行运算。/结束符,方便预测第一个Token/结束预测过程。原创 2024-04-16 18:16:26 · 2436 阅读 · 0 评论