Kaggle_NBME NLP比赛baseline讲解(1)

Lyttonkeepgoing

于 2022-03-15 18:40:41 发布

阅读量4k

点赞数 3

分类专栏： kaggle 文章标签：机器学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/m0_53292725/article/details/123480004

版权

最新的一个kaggle nlp比赛和大家分享一下baseline和基本的kaggle操作

主要由以下这几个部分构成：

1.赛题分析

2.数据EDA

3.模型选择及训练代码构建

4.成绩提交 # 一篇应该讲不完后面会继续更新

1.赛题分析

目标：在病人的病例中，找出各个疾病对应的临床表现简单来说就是QA问题但是根据实际情况同一病症会有多个临床表现所以也可以看成是一个token分类问题把和相关病症有关的token标记成1 把无关的标记成0

问题转化： QA问问题 & Token分类问题

模型pipeline: 疾病名称 + 病人病历再每个token位置上进行0，1分类

可不可以用bert + crf层？只要将dense层(全连接层)的输出的维度换成二维再加crf就可以

2.数据EDA

这个比赛提供了五份数据分别是train，test， features， patient_notes, submission 其中test和submission是在提交答案的时候使用的

重点是以下三个文件： train（标记了每个病历中，不同症状的相关描述），features（给出了所有病症的名称和id） patient_notes（给出了每份病例的详细描述）

来看一下数据这是train

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

Lyttonkeepgoing 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。