使用fast-bert进行医疗文本分类——FlyAI竞赛平台

本文介绍使用Fast-BERT进行医疗文本分类的竞赛经历,包括数据预处理、模型选择及参数调整,最终实现对患者病症的高效分类。

使用fast-bert进行医疗文本分类

一、赛题分析

医疗文本的分类能够及时快速的对患者的病症和问题进行判断分类,然后分配相应的科室和专家来进行答疑。这样会极大的减少资源的浪费、更快更及时的病症判断。  本次竞赛需要根据患者的病症和问题来预测属于240个类别中的哪一类,如:普通内科、肝病科、健身、急诊科、手足外科等等。

通过使用pandas分析了下本地提供的3万条数据,可以发现数据标签分布不均衡(主要的分类为:妇产科,神经科,消化科,呼吸科,内科等。)(看评分标准用的是准确率,所以也就没有对不平衡数据标签进行处理)

image.png然后又简单的分析了下文本(title+text)的长度

image.png二、 核心思路

(1)数据处理:train.csv文件中有三个字段,分别为title,text和label。使用pandas将title和text字段进行拼接以生成新的字段作为bert模型的输入。(使用transformers的tokenizer的encode方法可以快速的将text转化为token id)

(2)本地实验:(使用fastai库进行快速的文本分类)

image.png

           本地结果:

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值