最新的一个kaggle nlp比赛 和大家分享一下baseline和基本的kaggle操作
主要由以下这几个部分构成:
1.赛题分析
2.数据EDA
3.模型选择及训练代码构建
4.成绩提交 # 一篇应该讲不完 后面会继续更新
1.赛题分析
目标:在病人的病例中,找出各个疾病对应的临床表现 简单来说就是QA问题 但是根据实际情况 同一病症会有多个临床表现 所以也可以看成是一个token分类问题 把和相关病症有关的token标记成1 把无关的标记成0
问题转化: QA问问题 & Token分类问题
模型pipeline: 疾病名称 + 病人病历 再每个token位置上进行0,1分类
可不可以用bert + crf层?只要将dense层(全连接层)的输出的维度换成二维 再加crf就可以
2.数据EDA
这个比赛提供了五份数据 分别是train,test, features, patient_notes, submission 其中test和submission是在提交答案的时候使用的
重点是以下三个文件: train(标记了每个病历中,不同症状的相关描述) ,features(给出了所有病症的名称和id) patient_notes(给出了每份病例的详细描述)
来看一下数据 这是train