医疗文本分类

医疗文本分类

视频请至FlyAI官网查看:www.flyai.com

  • 预处理数据集
def pred_process(title, text, tokenizer, pad_size):
    content = title + text
    content = data_clean(content)
    tokens = tokenizer.tokenize(content)
    tokens = ["[CLS]"] + tokens + ["[SEP]"]

    # 得到input_id, seg_id, att_mask    input_id = tokenizer.convert_tokens_to_ids(tokens)
    types = [0] * (len(input_id))
    masks = [1] * len(input_id)
    # 短则补齐,长则切断    if len(input_id) < pad_size:
        types = types + [1] * (pad_size - len(input_id))  # mask部分 segment置为1        masks = masks + [0] * (pad_size - len(input_id))
        input_id = input_id + [0] * (pad_size - len(input_id))
        # print('ok')    else:
        # print(len(input_id))        types = types[:pad_size]
        masks = masks[:pad_size]
        input_id = input_id[:pad_size]
    return input_id, types, masks
  • 切分训练集
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值