Transformer系列
文章平均质量分 93
n/a
Perry 彭儒
浙江大学 计算机科学与技术
Machine Learning,Natural Language Processing
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
【2】Pretrained Transformer As Universal Computation Engines
论文标题:Pretrained Transformer As Universal Computation Engines - CoRR 2021原文传送门:https://arxiv.org/abs/2103.05247https://arxiv.org/abs/2103.052471. Abstarct作者研究了在语言上预训练的Transformer以最少的微调泛化到其他模态的能力——特别是在没有微调residual blocks (Self-Attn和FFN Layers)的情况下。他们原创 2021-12-20 13:11:29 · 814 阅读 · 1 评论 -
【1】Talking-Heads Attention
论文标题:Talking-Heads Attention - Arxiv2020原文传送门:https://arxiv.org/abs/2003.02436arxiv.orghttps://arxiv.org/abs/2003.02436arxiv.org1. Abstract & Introduction作者引入了一种MultiHead变种-“talking-heads attention”:在 softmax 之前和之后,跨注意力头维度的引入线性映射。虽然只附加了少量参数原创 2021-12-20 12:38:26 · 1528 阅读 · 0 评论
分享