transformer模型的工作原理和语言模型BERT
transformer模型的工作原理和语言模型BERT
1,概述
《Attention Is All You Need》是一篇Google提出的将Attention思想发挥到极致的论文。这篇论文中提出一个全新的模型,叫 Transformer,抛弃了以往深度学习任务里面使用到的 CNN 和 RNN。目前大热的Bert就是基于Transformer构建的,这个模型广泛应用于NLP领域,例如机器翻译,问答系统,文本摘要和语音识别等等方向。
以下是论文引用:
“Transformer 是第一个完全依赖自注意力(
原创
2021-04-08 15:58:13 ·
2370 阅读 ·
0 评论