- 博客(1)
- 收藏
- 关注

原创 Transformer相关的各种预训练模型优点缺点对比总结与资料收集(Transformer/Bert/Albert/RoBerta/ERNIE/XLnet/ELECTRA)
文章目录1、Transfomer基础资料基本结构single attention和 multiHead attentionattentionmulti-head attentionself-attentionencoder和decoderAdd & NormPosition-wise Feed-Forward Networks(Relu)Weight TyingNormalizationd...
2020-05-08 13:24:00
12646
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人