BERT
BERT模型进一步增加词向量模型泛化能力,充分描述字符级、词级、句子级甚至句间关系特征。
真正的双向encoding:
Masked LM,类似完形填空,尽管仍旧看到所有位置信息,但需要预测的词已被特殊符号代替,可以放心双向encoding。
Transformer做encoder实现上下文相关(context):
使用transformer而不是bi-LSTM做encoder,可以有更深的层数、具有更好并行性。并且线性的Transformer比lstm更易免受mask标记影响,只需要通过self-attention减小mask标记权重即可,而lstm类似黑盒模型,很难确定其内部对于mask标记的处理方式。
提升至句子级别:
学习句子/句对关系表示,句子级负采样。首先给定的一个句子,下一句子正例(正确词),随机采样一句负例(随机采样词),句子级上来做二分类(即判断句子是当前句子的下一句还是噪声),类似word2vec的单词级负采样。
1、train
–task_name=multiclass \
–do_train=true \
–do_eval=true \
–data_dir=/home/wxl/bertProject/bertTextClassification/data\
–vocab_file=/home/wxl/bertProject/chinese_L-12_H-768_A-12/vocab.txt \
–bert_config_file=/home/wxl/bertProject/chinese_L-12_H-768_A-12/bert_config.json \
–init_checkpoint=/home/wxl/bertProject/chinese_L-12_H-768_A-12/bert_model.ckpt \
–max_seq_length=128 \
–train_batch_size=16