一、Bert的模型结构
trm
Input
Input = token emb + segment emb + position emb
- CLS: classifier 分类(NLP分类任务)
- SEP:seprator 分隔两句语料,当系统发现SEP之后,就是你当前这句话就已经结束了
- ##ing : 字词分隔,把一个复杂的英文单词把它拆分成对应的>=2 tokens, 像原token是playing,拆分成play + ing
- 将CLS的输出向量接一个二分类器,做一个二分类任务。
- Segment Embeddings 需要对两个句子进行区分,假设第一个句子全用0来表示,第二个句子都用1来表示,代表两个句子
- Position Embeddings 的初始位置是随机初始化,让模型自己去学习更新。