使用fast-bert进行医疗文本分类
一、赛题分析
医疗文本的分类能够及时快速的对患者的病症和问题进行判断分类,然后分配相应的科室和专家来进行答疑。这样会极大的减少资源的浪费、更快更及时的病症判断。 本次竞赛需要根据患者的病症和问题来预测属于240个类别中的哪一类,如:普通内科、肝病科、健身、急诊科、手足外科等等。
通过使用pandas分析了下本地提供的3万条数据,可以发现数据标签分布不均衡(主要的分类为:妇产科,神经科,消化科,呼吸科,内科等。)(看评分标准用的是准确率,所以也就没有对不平衡数据标签进行处理)
然后又简单的分析了下文本(title+text)的长度
二、 核心思路
(1)数据处理:train.csv文件中有三个字段,分别为title,text和label。使用pandas将title和text字段进行拼接以生成新的字段作为bert模型的输入。(使用transformers的tokenizer的encode方法可以快速的将text转化为token id)
(2)本地实验:(使用fastai库进行快速的文本分类)

本地结果:

本文介绍使用Fast-BERT进行医疗文本分类的竞赛经历,包括数据预处理、模型选择及参数调整,最终实现对患者病症的高效分类。
最低0.47元/天 解锁文章
2282

被折叠的 条评论
为什么被折叠?



