Kaggle_NBME NLP比赛baseline讲解(1)

最新的一个kaggle nlp比赛 和大家分享一下baseline和基本的kaggle操作

 

主要由以下这几个部分构成:

1.赛题分析

2.数据EDA

3.模型选择及训练代码构建

4.成绩提交 # 一篇应该讲不完 后面会继续更新

1.赛题分析

目标:在病人的病例中,找出各个疾病对应的临床表现 简单来说就是QA问题 但是根据实际情况 同一病症会有多个临床表现 所以也可以看成是一个token分类问题  把和相关病症有关的token标记成1 把无关的标记成0

问题转化: QA问问题 & Token分类问题

模型pipeline: 疾病名称 + 病人病历 再每个token位置上进行0,1分类

可不可以用bert + crf层?只要将dense层(全连接层)的输出的维度换成二维 再加crf就可以

2.数据EDA

这个比赛提供了五份数据 分别是train,test, features, patient_notes, submission 其中test和submission是在提交答案的时候使用的

重点是以下三个文件: train(标记了每个病历中,不同症状的相关描述) ,features(给出了所有病症的名称和id) patient_notes(给出了每份病例的详细描述)

来看一下数据 这是train

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Lyttonkeepgoing

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值