医疗文本分类

最新推荐文章于 2024-12-23 10:46:44 发布

原创

最新推荐文章于 2024-12-23 10:46:44 发布 · 2.2k 阅读

16 ·

CC 4.0 BY-SA版权

文章标签：

#自然语言处理 #tensorflow #深度学习 #pytorch #自动驾驶

医疗文本分类

视频请至FlyAI官网查看：www.flyai.com

预处理数据集

def pred_process(title, text, tokenizer, pad_size):
    content = title + text
    content = data_clean(content)
    tokens = tokenizer.tokenize(content)
    tokens = ["[CLS]"] + tokens + ["[SEP]"]

    # 得到input_id, seg_id, att_mask    input_id = tokenizer.convert_tokens_to_ids(tokens)
    types = [0] * (len(input_id))
    masks = [1] * len(input_id)
    # 短则补齐，长则切断    if len(input_id) < pad_size:
        types = types + [1] * (pad_size - len(input_id))  # mask部分 segment置为1        masks = masks + [0] * (pad_size - len(input_id))
        input_id = input_id + [0] * (pad_size - len(input_id))
        # print('ok')    else:
        # print(len(input_id))        types = types[:pad_size]
        masks = masks[:pad_size]
        input_id = input_id[:pad_size]
    return input_id, types, masks