模型代码学习-CLS文本分类-Bert-Chinese-Text-Classification-Pytorch代码学习-构建数据，数据Iter类

最新推荐文章于 2025-11-16 12:55:49 发布

原创

最新推荐文章于 2025-11-16 12:55:49 发布 · 4k 阅读

32 ·

CC 4.0 BY-SA版权

文章标签：

#BERT #BERT数据预处理

Reference：https://github.com/649453932/Bert-Chinese-Text-Classification-Pytorch

模型代码学习-CLS文本分类-Bert-Chinese-Text-Classification-Pytorch代码学习-构建数据集类

baseDir： Bert-Chinese-Text-Classification-Pytorch/utils.py

./utils.py学习

全局

作者提供的数据集示例

def build_dataset(config):

def load_dataset(path, pad_size=32):

class DatasetIterater(object):

def __init__(self, batches, batch_size, device):

def _to_tensor(self, datas):

def __next__(self):

def __iter__(self):

def __len__(self):

def build_iterator(dataset, config):

def get_time_dif(start_time):

./utils.py学习

utils.py中主要是对于数据集的预处理，最终目标是构造能用于训练的batch和iter

全局

Tqdm 是一个快速，可扩展的Python进度条，可以在 Python 长循环中添加一个进度提示信息，用户只需要封装任意的迭代器 tqdm(iterator)，使用方法可见：https://blog.youkuaiyun.com/zkp_987/article/details/81748098

import torch
from tqdm import tqdm
import time
from datetime import timedelta

PAD, CLS = '[PAD]', '[CLS]'  # padding符号, bert中综合信息符号

作者提供的数据集示例

def build_dataset(config):

def load_dataset(path, pad_size=32):

读取作者提供的txt文件为f迭代器，for line in tqdm f可能可以指定一个进度条，通过strip方法去掉每行的空格，之后如果该行不存在了，则continue继续处理下一行
由于数据集中两个内容中间以\t分割，于是通过split方法拆分出content和label
config.tokenizer.tokenize(content)，其中config来自上层build_dataset方法的入参，run.py作为最终的运行文件进行调用train_data, dev_data, test_data = build_dataset(config)，其中config再进一步来源于x = import_module('models.' + model_name) config = x.Config(dataset)，来自于model bert.py中的class Config，最终config类中包括了self.tokenizer = BertTokenizer.from_pretrained(self.bert_path)，于是综合来说config.tokenizer.tokenize(content)可以理解为了BertTokenizer.from_pretrained(self.bert_path).tokenize(content)
token最开始前边手动拼接[CLS]，根据一些讨论个人理解[CLS]首先是bert用作分类任务必须需要的一个字符，参考该篇博客中的说法https://blog.youkuaiyun.com/qq_42189083/article/details/102641087，[CLS]就是classification的意思，可以理解为用于下游分类的任务，主要用于以下两种任务：1）单文本分类任务：对于文本分类任务，BERT模型在文本前插入一个[CLS]符号，并将与该符号对应的输出向量作为整篇文本的语义表示，用于文本分类。可以理解为：与本文中已有的其他字词相比，这个无明显语义信息的符号会更“公平”的融合文本中各个字/词的语义信息。2）语句对分类任务：该任务的实际应用场景包括：问答（判断一个问题与一个答案是否匹配）、语句匹配（两句话是否表达同一个意思）等。对于该任务，BERT模型除了添加[CLS]符号并将对应的输出作为文本的语义表示，还对输入两句话用一个[SEP]符号作分割，并分别对两句话附加两个不同的文本向量以作区分。
token_ids的作用需要打印后查看，猜测应该是一个与vocab.txt中进行角标对应的过程，不过为什么要进行这个对应->为了输入过程中的进一步输入进入bert进行位置embedding等
pad_size指定了希望的最长文本长度，并对不足的文本进行pad补充，于是在该分支内进行判断，如果token的长度小于pad_size超参，首先对mask进行拼接，拼接为前边token_ids长度个数的1和最后补齐pad_size的0，由于token_ids的后半部分没有补东西，现在也把token_ids的最后补上0，这里为什么把token_ids的最后补上0，是否和词表中的对应关系有关？->vocat.txt中角标是0的位置对应的是[PAD]->个人感觉一般来说vocab.txt中的第0位应该都是[PAD]
如果token的长度已经等于或超过了pad_size超参了，则mask中不设置任何忽略，为pad_size长度的1，同时把token_ids进行截取，并重置seq_len
把每一条数据放入contents中，每一条为(token_ids, int(label), seq_len, mask)，依次是：vocab.txt中的角标、类别int类型，文本长度，一个待使用的mask