探索Transformer:自然语言处理的变革力量
1. Transformer简介
自2017年问世以来,Transformer已成为学术界和工业界处理各种自然语言处理(NLP)任务的事实上的标准。也许你在不经意间,今天就已经与Transformer进行了交互。例如,谷歌现在使用BERT来增强其搜索引擎,以更好地理解用户的搜索查询。同样,OpenAI的GPT系列Transformer因其生成类人文本和图像的能力,多次成为主流媒体的头条新闻。这些Transformer如今为GitHub的Copilot等应用提供支持,如图1 - 1所示,Copilot可以将注释转换为源代码,自动为你训练神经网络!
Transformer之所以能在几乎一夜之间改变这个领域,是因为它融合了注意力机制、迁移学习和扩展神经网络等多个当时在研究界逐渐兴起的理念。然而,仅仅有一个新颖的方法并不足以在工业界获得广泛应用,还需要相应的工具来使其易于使用。Hugging Face的Transformers库及其周边生态系统满足了这一需求,它帮助从业者轻松使用、训练和共享模型,极大地加速了Transformer在工业界的采用。如今,超过1000家公司使用该库在生产环境中运行Transformer。
2. Transformer的起源故事
2017年,谷歌的研究人员发表了一篇论文,提出了一种用于序列建模的新型神经网络架构——Transformer。该架构在机器翻译任务上的表现优于循环神经网络(RNN),无论是在翻译质量还是训练成本方面。
与此同时,一种名为ULMFiT的有效迁移学习方法表明,在非常大且多样化的语料库上以语言建模为目标对长短期记忆(LSTM)网络进行预训练,然后
超级会员免费看
订阅专栏 解锁全文
1165

被折叠的 条评论
为什么被折叠?



