医疗文本分类
视频请至FlyAI官网查看:www.flyai.com
- 预处理数据集
def pred_process(title, text, tokenizer, pad_size):
content = title + text
content = data_clean(content)
tokens = tokenizer.tokenize(content)
tokens = ["[CLS]"] + tokens + ["[SEP]"]
# 得到input_id, seg_id, att_mask input_id = tokenizer.convert_tokens_to_ids(tokens)
types = [0] * (len(input_id))
masks = [1] * len(input_id)
# 短则补齐,长则切断 if len(input_id) < pad_size:
types = types + [1] * (pad_size - len(input_id)) # mask部分 segment置为1 masks = masks + [0] * (pad_size - len(input_id))
input_id = input_id + [0] * (pad_size - len(input_id))
# print('ok') else:
# print(len(input_id)) types = types[:pad_size]
masks = masks[:pad_size]
input_id = input_id[:pad_size]
return input_id, types, masks
- 切分训练集

最低0.47元/天 解锁文章
2626

被折叠的 条评论
为什么被折叠?



