Task5

BERT模型显著增强词向量泛化能力,全面捕捉字符、词、句子及句间关系特征。采用MaskedLM与Transformer编码器,实现真正双向编码,加深网络层数,优化并行性。引入句子级负采样,精进句子对关系表示。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

BERT

BERT模型进一步增加词向量模型泛化能力,充分描述字符级、词级、句子级甚至句间关系特征。

真正的双向encoding:

Masked LM,类似完形填空,尽管仍旧看到所有位置信息,但需要预测的词已被特殊符号代替,可以放心双向encoding。

Transformer做encoder实现上下文相关(context):

使用transformer而不是bi-LSTM做encoder,可以有更深的层数、具有更好并行性。并且线性的Transformer比lstm更易免受mask标记影响,只需要通过self-attention减小mask标记权重即可,而lstm类似黑盒模型,很难确定其内部对于mask标记的处理方式。

提升至句子级别:

学习句子/句对关系表示,句子级负采样。首先给定的一个句子,下一句子正例(正确词),随机采样一句负例(随机采样词),句子级上来做二分类(即判断句子是当前句子的下一句还是噪声),类似word2vec的单词级负采样。

1、train
–task_name=multiclass \

–do_train=true \

–do_eval=true \

–data_dir=/home/wxl/bertProject/bertTextClassification/data\

–vocab_file=/home/wxl/bertProject/chinese_L-12_H-768_A-12/vocab.txt \

–bert_config_file=/home/wxl/bertProject/chinese_L-12_H-768_A-12/bert_config.json \

–init_checkpoint=/home/wxl/bertProject/chinese_L-12_H-768_A-12/bert_model.ckpt \

–max_seq_length=128 \

–train_batch_size=16
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值