Bert模型: 无监督:预训练
有监督:微调
BERT的全称是Bidirectional Encoder Representation from Transformers,即双向Transformer的Encoder,
144个self-attention机制
离当前字的距离越远,相关程度越低
Bert模型: 无监督:预训练
有监督:微调
BERT的全称是Bidirectional Encoder Representation from Transformers,即双向Transformer的Encoder,
144个self-attention机制
离当前字的距离越远,相关程度越低