前言
在自然语言处理(NLP)领域,BERT(Bidirectional Encoder Representations from Transformers)已经成为理解类任务的标配模型。相比 GPT 更擅长文本生成,BERT 则在语言理解任务上展现出卓越的能力。本文将从结构到应用,全方位剖析 BERT 的核心思想与关键技术。
一、BERT 的技术背景
BERT 基于 Transformer 架构中的 Encoder 部分,其出现受到了 ELMo 和 GPT-1 的启发:
-
ELMo:采用双向 LSTM(能够双向上下文),能够捕捉上下文信息,但执行上较为缓慢。
-
GPT-1:基于 Transformer 的 Decoder 结构,仅使用单向上下文。
-
BERT:综合优势,采用 Transformer 的 Encoder,并实现了真正的双向建模,BERT 模型本质上就是一个强大的语义特征向量提取模型。
二、模型结构概览
1. 输入结构
BERT 的输入包括三类嵌入信息:
-
Token Embedding:词语嵌入,将输入文本的词转化为向量,通常为 768 维。
-
Segment Embedding:区分句子 A/B 的标记。
-
Position Embedding:加入位置信息,使模型有“顺序感”,比如标号为0、1、2,有别于transfomer 的positional encoding 通常

最低0.47元/天 解锁文章
1万+

被折叠的 条评论
为什么被折叠?



