bert的数据处理

Marshal～

于 2021-10-26 11:06:12 发布

阅读量786

点赞数

CC 4.0 BY-SA版权

分类专栏：李沐文章标签： bert 自然语言处理机器学习

本文链接：https://blog.youkuaiyun.com/M_arshal_/article/details/120964346

李沐专栏收录该内容

10 篇文章

订阅专栏

该文介绍了一种使用BERT进行序列标注的方法，包括数据下载、相邻句子构造、掩码处理以及输入句子的pad操作。通过构建监督学习模型，对文本进行预处理，以训练BERT模型来预测句子是否相邻。掩码处理步骤中，80%的词汇被掩码，10%保持不变，10%随机替换。最后，对输入序列进行填充以适应模型输入要求。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、将数据下载下来
在这里插入图片描述
二、构造相邻句子token_a和token_b
百分之五十是下一个句子。
百分之五十是随机拼接的来自文章的句子。
这里已经知道正确答案is_next为true或false

利用上面的函数构建循环在文章中构建token_a和token_b，这时候我们已经知道他们是不是相邻的，我之后可以用bert做预测实现监督学习
在这里插入图片描述
进一步对token_a和token_b进行掩码处理，
三、继续构造输入：进行掩码
（1）就是不断的地进行构造，直到长度大于等于原句子，这也就代表全部转化完成。
（2）百分之八十转化为掩码，百分之十保持不变，百分之十随机替换

在这里插入图片描述
下面就是对全文进行mask掩码，调用上面的函数。首先去掉标签取出全部文本。输入到上面函数中去，对文本进行mask

四、对输入句子进行pad
就是把有些短句子加入当然segment也要加[0]以及随之而来的一些修改：pred_positions把输入的模型长度增加、修改mlm信息（未详细看）
在这里插入图片描述

五、使用以上函数构造dataset