
起源
transformer模型,它由级联的encoder和decoder组成。输入一段文本,编码器把它压缩到潜空间,再用解码器翻译成新的文本。
encoder-only ——BERT派
像善于分析的专家,输入一段文本,可以将文本拆解的头头是道
本质是把高维数据压缩到低维空间
本质是完形填空的模式,给定一个句子,随即掩盖掉一些词,然后让模型预测是什么,训练要同时考虑上下文 ,这就体现了BERT的双向性,比单向的搜索空间更大,因为他需要在整个词汇表中找最合适的词来填充每个空
decoder-only ——GPT派
会讲故事的专家,能流畅的自说自话
采用的是自回归序列,给定一个序列,模型预测之后可能出现的不同单词,计算概率,选择最大概率输出,不断迭代能输出完整的句子
本质上他学习的是词与词之间的造句关系,搜索空间相对较小,就像一个人在不断自我学习,锻炼讲故事的能力
encoder+decoder ——T5派
GPT派
相比于gpt-2,谷歌的gopher验证了通过扩大模型的规模有效处理复杂任务的可行性,chinchilla验证了增加数据比增加模型参数更有效,llama则通过不到十分之一的参数便实现了堪比gpt系列的性能
大模型训练流程图


本文介绍了Transformer模型的三个主要变种:BERT的编码器导向、GPT的自回归解码器导向以及T5的编码器-解码器结合。讨论了大模型如Gopher、Chinchilla和Llama的进展,强调了数据和模型规模对处理复杂任务的影响。
最低0.47元/天 解锁文章
950

被折叠的 条评论
为什么被折叠?



