探索BERT与GPT系列模型:从原理到应用
1. 变压器模型的挑战与潜力
变压器模型在自然语言处理领域展现出强大的能力,但也存在一些缺点。其中一个显著问题是,注意力层所需的内存会随着输入大小的增加而急剧增长。不过,有方法可以调整注意力机制以及整个变压器模型,以在不同情况下降低这些成本。
2. BERT模型详解
- 模型结构 :BERT,即双向编码器表示来自变压器(Bidirectional Encoder Representations from Transformers),其结构始于词嵌入器和位置嵌入器,随后是多个变压器编码器块。原始的“大型”版本BERT拥有3.4亿个权重或参数,该系统在维基百科和超过10,000本书籍上进行训练。目前,有24个经过训练的原始BERT系统版本可在网上免费获取,同时还有越来越多基于此基本方法的变体和改进版本。
graph LR
A[输入] --> B[词嵌入器]
B --> C[位置嵌入器]
C --> D[变压器编码器块1]
D --> E[变压器编码器块2]
E --> F(...)
F --> G[变压器编码器块n]
G --> H[输出]
- 训练任务 :BERT在两个任务上进行训练。一是下一句预测(NSP),即同时给BERT两个句子(用特殊标记分隔),让它判断第二个句子是否合理地跟随第一个句子。二是完形填空任
超级会员免费看
订阅专栏 解锁全文
360

被折叠的 条评论
为什么被折叠?



