Kesci公众健康问句分类 决赛第8名解决方案

0. 前言

前段时间参加了Kesci的公众健康问句分类比赛,主要是一个健康领域的多标签分类问题。除去前面弃权的一些小伙伴,有幸拿到了决赛的第8名,记录一下自己的比赛经历,希望对大家有所帮助。

github链接,欢迎start~

1. 任务分析

1.1问题背景

随着健康医疗信息化的发展以及云计算、物联网、移动智能等技术在健康医疗领域的广泛应用,医疗行业汇聚了大量可以发挥出实际价值的海量的医学数据。这些医学数据是医疗研究与进步的基石。

1.2相关工作

多标签分类,首先是一个文本分类任务,然后是一个多标签的任务。最早期的时候多标签分类任务不考虑各种标签之间的关联关系,如二元关联法,到将标签之间的关系考虑进去,如分类器链与标签集合法。二元关联法实质上是将每个标签独立分离开来看待,将一个多分类问题转化为多个二分类问题。分类器链法是通过每次预测一个标签后,将此标签纳入特征范围内,作为新的标签参与预测。标签集合法是将训练集中出现过的所有标签作为一个集合整体,通过对这种集和整体的多分类预测来解决多标签分类问题。但是这些基于深度学习的方法由于在性能上面仍有欠缺,所以逐渐被深度学习方法代替。

之后,深度学习方法逐渐发展起来。大规模的预训练语言模型开始出现在公众的视线之中,这些预训练模型可以缩短人们花费在特征提取工作上的时间,使得自然语言处理走向另一个阶段。Bert, roberta, ernie等就是这类基于预训练任务的自然语言处理模型。这些预训练任务往往是基于大量的语料。在有足够的算力情况下,通过对下游任务的微调工作,模型能够发挥出优越的表现。通过对具体问题具体语料下的分析和模型结构的调整,预训练模型结构可以发挥出更加优异的效果。

1.3赛题描述

基于给出的与健康有关的中文问句,对问句的主题进行分类(共包含 6 个大类:A 诊断、B 治疗、C 解剖学/生理学、D 流行病学、E 健康生活方式、F 择医)。由于一个中文健康问句往往归属于多个主题类别,在测试集上的 F1-score 来衡量团队的表现。

在这里插入图片描述

训练集和测试集的文本长度分布比较一致,从中我们也可以看出文本长度大部分小于512,且集中分布在150左右,在后续调参中需要考虑到这些因素。

2. 实验

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值