【笔记】happy-llm 第三章 预训练语言模型

正文详见:happy-llm/docs/chapter3/第三章 预训练语言模型.md at main · datawhalechina/happy-llmhttps://github.com/datawhalechina/happy-llm/blob/main/docs/chapter3/%E7%AC%AC%E4%B8%89%E7%AB%A0%20%E9%A2%84%E8%AE%AD%E7%BB%83%E8%AF%AD%E8%A8%80%E6%A8%A1%E5%9E%8B.md

3.1 Encoder-only PLM

3.1.1 BERT

配合下文食用:

(42 封私信 / 80 条消息) 读懂BERT,看这一篇就够了 - 知乎https://zhuanlan.zhihu.com/p/403495863

BERT 是一个统一了多种思想的预训练模型。其所沿承的核心思想包括:Transformer 架构和预训练+微调范式。

模型架构——Encoder Only

BERT整体既是由 Embedding、Encoder 加上 prediction_heads 组成。

Embedding部分:文本序列Text通过分词器tokenizer转化为input_ids,然后进入Embedding层转化为特定维度的hidden_stats(包含Token Embeddings,Segment Embeddings以及Position Embeddings)。

 Encoder部分:进过Embedding转化后的hidden_states在金国Encoder块。Encoder 块中是对叠起来的 N 层 Encoder Layer。

BERT 有两种规模的模型,分别是 base 版本(12层 Encoder Layer,768 的隐藏层维度,总参数量 110M),large 版本(24层 Encoder Layer,1024 的隐藏层维度,总参数量 340M)。

EncoderLayer: 每一层 Encoder Layer 都是和 Transformer 中的 Encoder Layer 结构类似的层。在EncoderLayer中,hidden_states先经过attention块。

在attention块中,hidden_states先完成注意力分数的计算获得attention_weight,再通过Position Embedding 层来融入相对位置信息,在进行softmax操作。

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值