数据集使用bert模型
1.文件处理流程
- 把数据集按比例划分train,test和dev
- 在excel里把train,test和dev使用=RAND(),打乱排序。
- 分类从0开始,不允许有负值。
- 转换成txt格式,编码要为“utf-8”
- 内容和格式的分隔符要记得查看在在内容里是是否存在相同的分割符,如果存在相同的分隔符,需要处理掉(目的是防止程序识别错误,分割错误)
- 导入自己语料时,经常出现的错误。“超过所需要的值”,提示:去检查自己的内容和标签分割问题,检查语料。
if len(lin.split('\t')) == 2:
content, label = lin.split('\t')#数据集中两个内容中间以\t分割,于是通过split方法拆分出content和label
token = config.tokenizer