bert的数据处理

该文介绍了一种使用BERT进行序列标注的方法,包括数据下载、相邻句子构造、掩码处理以及输入句子的pad操作。通过构建监督学习模型,对文本进行预处理,以训练BERT模型来预测句子是否相邻。掩码处理步骤中,80%的词汇被掩码,10%保持不变,10%随机替换。最后,对输入序列进行填充以适应模型输入要求。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一、将数据下载下来
在这里插入图片描述
二、构造相邻句子token_a和token_b
百分之五十是下一个句子。
百分之五十是随机拼接的来自文章的句子。
这里已经知道正确答案is_next为true或false
在这里插入图片描述
利用上面的函数构建循环在文章中构建token_a和token_b,这时候我们已经知道他们是不是相邻的,我之后可以用bert做预测实现监督学习
在这里插入图片描述
进一步对token_a和token_b进行掩码处理,在这里插入图片描述
三、继续构造输入:进行掩码
(1)就是不断的地进行构造,直到长度大于等于原句子,这也就代表全部转化完成。
(2)百分之八十转化为掩码,百分之十保持不变,百分之十随机替换

在这里插入图片描述
下面就是对全文进行mask掩码,调用上面的函数。首先去掉标签取出全部文本。输入到上面函数中去,对文本进行mask
在这里插入图片描述
四、对输入句子进行pad
就是把有些短句子加入当然segment也要加[0]以及随之而来的一些修改:pred_positions把输入的模型长度增加、修改mlm信息(未详细看)
在这里插入图片描述
在这里插入图片描述
五、使用以上函数构造dataset
在这里插入图片描述
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值