【论文阅读】Attention Is All You Need
【2017NIPS】论文:https://arxiv.org/pdf/1706.03762v5.pdf代码:https://github.com/tensorflow/tensor2tensor本文提出了新的网络结构Transformer,仅仅依靠注意力机制而不再使用循环和卷积结构训练可以采用并行化,从而大大缩短训练时间介绍现有的循环模型每个时间步依次计算,这种序列化的方法大大阻碍了训练的并行尽管有工作采用一些技巧提高了计算效率,但是这种序列化的本质问题仍然存在...
原创
2021-02-06 22:26:59 ·
774 阅读 ·
0 评论